本中心與傳播學院合作,於12月5日周四邀請到新加坡國立大學Natalie Pang教授開設Introduction to Data Science with R工作坊,學習如何將R軟體應用於目前最熱門的資料科學研究,本次工作坊由傳播學院副院長,同時也是本中心國際交流與研究小組召集人林翠絹教授主持。
Pang教授分享研究心得
(照片提供:台灣政經傳播研究中心)
林教授開場介紹
(照片提供:台灣政經傳播研究中心)
2013年新加坡小印度區的晚上,一位印度客工被私人巴士撞倒喪命,引起路人及工友不滿,逾百人包圍肇事車輛,後來趕到的警車被掀翻、救護車被縱火焚毀,一位客工的死成為種族衝突的導火線,持續兩個多小時的騷亂,發生在政局相對穩定的新加坡,令舉世震驚。當晚Twitter上開始出現#lir (Little India Riot)等話題標籤,來自各地的用戶實時上傳、更新小印度騷亂的現狀,當時身在新加坡的Natalie Pang教授即時追蹤、抓取Twitter資料,並進一步分析、研究整個騷亂的生命歷程。
Pang教授示範如何使用R及RStudio
(照片提供:台灣政經傳播研究中心)
從新加坡小印度騷亂的研究經驗講起,Pang教授接續以About Data Science Myth為題,說明資料科學的軟體工具選擇取決於研究問題本身,以小印度騷亂的研究為例,Pang教授在不同的階段分別使用了Python、excel、R和Tableau等軟體,而本次工作坊則以R及RStudio的實作為主軸,引導學員進入資料科學的世界。Pang教授先是循序漸進的介紹R及RStudio介面、如何輸入指令等,協助與會者由淺至深的了解R軟體的功用,也提供可供下一階段自學的開放資源,與會學員則跟著Pang教授的教學,一步一步學習R軟體的操作。
Pang教授示範如何使用R及RStudio
(照片提供:台灣政經傳播研究中心)
Pang教授也分享她在Facebook、Twitter等社交平台的資料蒐集經驗,她指出在資料蒐集的過程中,由於需在軟體中編寫需要抓取的內容,最重要的就是要有穩定的抓取模板。而在幾個社交平台中,Twitter的開放性以及推文的格式一致性,讓Twitter成為相當重要的分析資料來源。在新加坡相當主流的Facebook,其資料則相對不易抓取,一方面是各用戶及粉絲專頁的貼文內容,在格式上並不穩定(一致),貼文內容較長或回覆較多時會隱藏部分內容的設定也造成資料蒐集的困難,另一方面則是因為之前劍橋分析(Cambridge Analytica)公司資料外洩事件,使Facebook更新隱私設定,對資料把關更嚴謹,因此需要投入更多的人力進行資料蒐集工作。
最後,針對學員的提問,Natalie Pang教授也就目前資料科學常使用的各種軟體、抓取資料的平台進行評論,指出「軟體的選擇其實取決於想要回答的問題」,與會者皆滿載而歸。
Pang教授與出席學員合照
(照片提供:台灣政經傳播研究中心)