趙妍妍1,秦兵2,劉挺2
1. 哈爾濱工業(yè)大學(xué)機電學(xué)院媒體技術(shù)與藝術(shù)系,黑龍江 哈爾濱 150001;
2. 哈爾濱工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院社會計算與信息檢索研究中心,黑龍江 哈爾濱 150001
摘要:Web2.0時代的開啟和社會媒體的不斷發(fā)展,使得互聯(lián)網(wǎng)上的數(shù)據(jù)規(guī)模呈爆炸性增長。網(wǎng)絡(luò)大數(shù)據(jù)不僅為社會治理領(lǐng)域帶來了新的契機,也對數(shù)據(jù)處理技術(shù)提出了巨大的挑戰(zhàn)。構(gòu)建了一個社會焦點透視鏡系統(tǒng),結(jié)合新浪微博數(shù)據(jù),不僅能夠?qū)崟r提供每日的焦點事件及其情感分布展示,供輿情分析部門進(jìn)行檢測,還能夠深層剖析焦點事件的情感分布原因和人群分布,協(xié)助社會治理領(lǐng)域進(jìn)行策略的提出和實施。以“9·3閱兵”為例,呈現(xiàn)社會焦點透視鏡系統(tǒng)深度剖析的結(jié)果展示。
關(guān)鍵詞:網(wǎng)絡(luò)大數(shù)據(jù);社會焦點透視鏡;焦點事件抽取;情感分布
中圖分類號:TP391. 1 文獻(xiàn)標(biāo)識碼:A
doi: 10.11959/j.issn.2096-0271.2016018
Social event sensor: a public opinion platform from the big data perspective
ZHAO Yanyan 1 , QIN Bing 2 , LIU Ting 2
1. Department of Media Technology and Art, Harbin Institute of Technology, Harbin 150001
2. Research Center for Social Computing and Information Retrieval of Computer Science and Technology School, Harbin Institute of Technology, Harbin 150001
Abstract: The development of Web 2.0 and social media has led to the explosive growth of>
1 引言
Web2.0時代的開啟和社會媒體(如微信、微博)的出現(xiàn)使得大量用戶從被動地在網(wǎng)絡(luò)上接收知識轉(zhuǎn)變?yōu)楹A烤W(wǎng)絡(luò)數(shù)據(jù)的產(chǎn)生者。據(jù)統(tǒng)計,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長50%,每兩年便翻一番,網(wǎng)絡(luò)大數(shù)據(jù)應(yīng)運而生。目前,大數(shù)據(jù)的研究和應(yīng)用價值已在很多領(lǐng)域初見端倪。例如:在零售業(yè),可以在大數(shù)據(jù)中挖掘出高消費者和高影響者兩類有價值的客戶,進(jìn)行產(chǎn)品推薦和口碑宣傳,與社交網(wǎng)絡(luò)相結(jié)合創(chuàng)造出新的商品營銷模式。此外,社交網(wǎng)絡(luò)中的大數(shù)據(jù)也為很多政治選舉提供了新的宣傳手段,最典型的如在Facebook上開展的奧巴馬的總統(tǒng)競選運動。
隨著大數(shù)據(jù)理念和相關(guān)技術(shù)的不斷深入,大數(shù)據(jù)應(yīng)用也在慢慢向社會治理領(lǐng)域滲透。2015年8月31日,國務(wù)院以國發(fā)〔2015〕50號印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》。大數(shù)據(jù)發(fā)展與“提升政府治理能力現(xiàn)代化”緊緊相連,成為全文亮點。大數(shù)據(jù)將如何助力政府治理,以改善百姓民生、社會服務(wù)成為大家最為關(guān)注的話題。眾所周知,爆炸性增長的大數(shù)據(jù)蘊藏著巨大的價值,因此尋求有效的大數(shù)據(jù)處理技術(shù)、方法和手段成為基于大數(shù)據(jù)進(jìn)行社會治理的最本質(zhì)的需求。
在眾多的大數(shù)據(jù)形式中,社會媒體數(shù)據(jù),如微博和微信數(shù)據(jù),是很好的一種洞察民情、觀測大眾行為的數(shù)據(jù)形式。例如,當(dāng)某一焦點事件發(fā)生時,大量民眾在微博上發(fā)表自己的觀點,可以通過觀測相關(guān)的微博大數(shù)據(jù)來統(tǒng)計并獲取民眾對于該事件的情感分布趨勢,繼而協(xié)助相關(guān)部門進(jìn)行社會治理策略的提出和實施。此外,微博大數(shù)據(jù)還可以挖掘出民眾普遍關(guān)注的話題類型、暴露出民眾的整體情緒趨勢,供輿情部門監(jiān)測。
目前國內(nèi)外已經(jīng)有多項借助微博或Twitter來進(jìn)行淺層社會治理和分析的技術(shù)和系統(tǒng)。Zhao等人[1]構(gòu)建了一個名為MoodLens的中文微博情感分析系統(tǒng),將微博的情感分為憤怒、厭惡、高興和低落4類,進(jìn)行異?;蛲话l(fā)事件的監(jiān)測。Wang等人[2]構(gòu)建了一個實時的預(yù)測2012年美國大選結(jié)果的系統(tǒng),該系統(tǒng)通過統(tǒng)計Twitter上民眾對于4位候選人的情感分布來進(jìn)行結(jié)果預(yù)測。Ciot等人[3]研究了Twitter上進(jìn)行用戶性別預(yù)測的算法。Diao等人[4]研究了如何在Twitter上實時發(fā)現(xiàn)突發(fā)事件。Jennifer等人[5]研究了在Twitter上某個事件的發(fā)生時間預(yù)測算法。以上這些有代表性的系統(tǒng)和算法均是圍繞微博或Twitter大數(shù)據(jù)中焦點事件抽取和情感分析這兩大項任務(wù)進(jìn)行的,屬于淺層的大數(shù)據(jù)分析結(jié)果顯示,存在的問題是缺乏事件和情感的深層分析和透視。這些傳統(tǒng)的系統(tǒng)和研究往往只關(guān)注民眾關(guān)心的焦點事件是什么,情緒走向是什么。如圖1(a)所示,基于自然語言處理技術(shù),可以對2015年5月29日的微博大數(shù)據(jù)進(jìn)行分析,挖掘出全國十大焦點事件以及每個事件的民眾情感分布,屬于淺層分析,分析出的結(jié)果可以為相關(guān)部門提供一定的預(yù)警信號。