活動成果
目前位置:

大數據工作坊,報名踴躍,與會者皆滿載而歸

台政傳中心於11月27日星期五早上9:30首次辦理「大數據工作坊」,報名踴躍,講師、與會者間問答熱絡。活動由現在任職淡江大學的戴昀助理教授預錄影片演講「一個『刪帖』研究的經驗:WeChatscope資料系統簡介」開始,接著由台政傳中心大數據小組兼任助理教學如何簡介本中心最新的大數據資料庫,指導同學如何使用資料庫數據和爬搜相關訊息。
 
活動由台政傳中心黃紀主任致詞拉開序幕,簡介台政傳中心研究方向以及本中心在大數據資料庫方面的建置。接著以預錄影片方式,由戴昀助理教授講授「一個『刪帖』研究的經驗:WeChatscope資料系統簡介」,說明透過分析微信公眾號發文被刪除,如何以random forest方式運算每則貼文與各種主題的關聯性,並再以人工判讀深入探討微信貼文被刪除的可能關鍵原因。
 
接下來由講師呂學翰向學員簡介本中心YouTube留言資料庫的內容,將從資料欄位說明、資料統計值以及資料爬蟲方法開始說明。在工作坊活動前,事先提供部分Youtube留言資料與程式碼提供學員事先下載以及往後進行分析時參考。呂老師的課程依序說明留言資料的自然語言處理(NLP),分析留言情緒與議題趨勢,主要以結巴套件(Jieba)進行中文斷詞,同時也會一併介紹中研院斷詞系統ckip。再結合情緒字典分析哪一類議題有較多負面情緒用詞,以及這些流言多和哪些主題相關。


講師呂學翰授課。(照片來源:台灣政經傳播研究中心)

 
此外,講師洪御哲分享當手邊有大量資料時,該如何快速知道各個文本的主題並加以分類。洪老師示範使用「主題模型」非監督式的訓練方法,在本次工作坊中帶領學員實作LDA(Latent Dirichlet Allocation) 主題模型,以YouTube上各個政論節目下的千萬則留言作為練習資料,從留言的文字中分類並判斷屬於何種主題,以及各個主題的特性。


講師洪御哲授課。(照片來源:台灣政經傳播研究中心)

 

最後,針對學員的提問,兩位講師就自身經驗和專業,解答學員對大數據資料庫相關疑問,與會者皆滿載而歸。

與會者大合照。(照片來源:台灣政經傳播研究中心)