2022大數據工作坊:實作與理論雙軌進行,學員們熱烈響應!
台灣政經傳播研究中心(Taiwan Institute for Governance and Communication Research, TIGCR)於11月25日星期五早上9:30舉辦本年度第三場次的工作坊【2022大數據工作坊】! 本次工作坊以「文字探勘與輿情分析」為主題,介紹使用資料/文字探勘及人工智慧於自然語言、輿情分析之研究,報名人數突破百人,活動順利圓滿,參與者皆滿載而歸。
圖一為大合照
本工作坊分為兩個主題,第一個主題由政大資訊科學系,邱淑怡老師分享「資料探勘及深度學習於社群媒體之應用-以臉書為例」。第一部分,邱老師介紹資料探勘(Data Mining)及深度學習(Deep Learning)如何應用於大量文字資料的分析,並穿插經典、有趣的實例,淺顯易懂的讓與會者了解從大量資料建立模型,能找出隱藏的特殊關聯性及特徵。同時,針對時下最熱門的「深度學習」,也表示應用範圍就在你我的生活周遭,比方說學校的車牌辨識,鼓勵與會者可以從日常生活中進行觀察。
圖二為講師邱淑怡老師
第二部分,邱淑怡老師介紹了應用天際線(Skyline Query)。從2013年微軟成功預測24個奧斯卡獎項中的19個獎項為開頭,講述了天際線運算的特性。更以2014年太陽花學運時,自身尋找該時熱門貼文的經驗和與會者分享,並特別提到「presorting」與「processing」能幫助搜尋更有效率。第三部分,則透過有趣的探勘案例,講解中文貼文的語意分析(Semantic Analysis)大致的操作流程,包含模型TD Matrix、Python Jieba中文斷詞工具等。同時,也利用英文貼文的實際案例(如:時任美國總統川普選舉期間的貼文),和與會者來簡介英文貼文相對中文貼文沒有斷詞的問題,但反之需注意到英文的時態變化,舉例而言:不可以把過去式、現在式區分為不同的詞。這些考量,都是在進行資料探勘上不可不注意的細節。
最後,邱淑怡老師分享了「社群媒體語言建構深度學習模型:以「校正回歸」為例」。老師及其團隊是以2021年5月22日開始使用的「校正回歸」一詞後三天所產製的臉書貼文為語料,先進行人工情感分析(正向/負向/中立),並訓練BERT模型。針對BERT模型,老師介紹該模型是在2018年最早被提出來,主要是隨機將語句中的少數詞語遮住,然後訓練其猜出被遮住的詞語是什麼;其二則是「下一句預測」,將上下相連的兩個句中的第二句(下一句)以固定比率替換成其他句子,訓練模型判斷這個句子是否為第一句的下一句。老師也介紹BERT模型就屬於深度模型中的遷移式學習,將已經在一個特定資料集上訓練好的模型拿來用於另一個資料集的訓練。
尾聲,除了針對學員的提問,解答相關疑問外,老師也透露目前她還持續針對:1. 貼文的摘要,透過摘要預測貼文的語意分析。2.處理貼文的表情符號:DeepMoji。3. 諷刺語意的預測。4. 疫情前後不同時間階段的情緒、政治傾向的比例分析等議題持續鑽研中,邀請有興趣的同學可以一起探究相關議題!
時間來到後半段,本工作坊第二個主題由本中心博士級研究員洪國智、以及兼任助理丁家麒主講:「應用TIGCR網路爬蟲專案於輿情分析」。本主題延續前兩次的工作坊,分享中心的 Facebook、PTT爬蟲專案,並介紹大數據小組所做過的輿情分析、選情預測案例。同時介紹使用Python實作蒐集資料、詞頻分析、深度學習模型訓練,以及使用Tableau對資料進行量化分析。
圖三為本中心博士級研究員洪國智
透過洪國智研究員由淺入深的介紹,與會者更進一步的了解了文字探勘的主要領域,以及網路時代下,資料/數據大量性、多樣性、高速性與價值性的特徵。同時,透過TIGCR爬蟲範例及2021-2022上半年衛福部臉書輿情資料收集分析的介紹,與會者親自進行Python操作,更進一步加深印象與實務理解。活動的最後,在兼任助理丁家麒細心的主講下,與會者也深入了解Tableau的三大類型,並透過實際操作將理論與實務結合!
圖四為兼任助理丁家麒
2022大數據工作坊學員積極提問,與講師應答熱絡。與會者對本次工作坊內容安排表示受益良多。
圖五為工作坊實作時間,講師親自指導同學操作
工作坊完整影片請點這邊:https://youtu.be/vgmwmPg0jfA