活動公告
目前位置:

台灣政經傳播研究中心 大數據工作坊

台政傳中心將於11月27日星期五早上9:30辦理【大數據工作坊】! 活動由現在任職淡江大學的戴昀助理教授預錄影片演講「一個『刪帖』研究的經驗:WeChatscope資料系統簡介」開始,接著會由台政傳中心大數據小組兼任助理教學如何簡介本中心最新的大數據資料庫,指導同學如何使用資料庫數據和爬搜相關訊息。
 
本活動主要介紹台政傳中心建構之youtube留言資料庫的內容,將從資料欄位說明、資料統計值以及資料爬蟲方法開始說明。而有了如此大量之資料,要如何著手進行分析呢?接下來的課程會依序說明留言資料的自然語言處理(NLP),分析留言情緒與議題趨勢,主要以結巴套件進行中文斷詞,同時也會一併介紹中研院斷詞系統ckip。課程中將提供一部分youtube留言資料以及程式碼供大家分析之參考。
 
另外,工作坊中也會分享當我們手中有一大堆文本時,該如何快速知道各個文本的主題並加以分類。我們將使用「主題模型」非監督式的訓練方法。在本次工作坊中,我們帶各位實作LDA(Latent Dirichlet Allocation) 主題模型,以youtube上各個政論節目下的千萬則留言作為練習資料,從留言的文字中分類並判斷屬於何種主題,以及各個主題的特性。
 
歡迎對大據據、資料爬搜有興趣的朋友們一起報名活動!

【課程要求】須具備python程式語言的基礎能力,且須於課程前安裝課程指定之套件並確認能夠執行。
 
【指定套件】pandas、numpy、matplotlib、os、hanzidentifier、jieba
 
【報名連結】https://reurl.cc/R1m8b6