然而,對于社會治理而言,相關(guān)部門更關(guān)心的是為何某一事件的發(fā)生會產(chǎn)生異常情緒、什么樣的人群會導(dǎo)致某些情緒的產(chǎn)生等深入的原因剖析,基于此來指導(dǎo)社會治理方案的制定。如圖1(b)所示,看到民眾對于“長江游輪傾覆”事件的情緒分布后,相關(guān)部門更想知道為何會有人喜悅、為何會有人憤怒等異常情緒的形成原因。又如圖1(c)所示,相關(guān)部門還想知道針對同一焦點(diǎn)事件,不同的用戶畫像(性別、職業(yè)、年齡等)產(chǎn)生的情感分布的差別是什么,用以框定某一異常情緒的用戶群體進(jìn)行監(jiān)測。相比微博大數(shù)據(jù)的淺層分析和呈現(xiàn)而言,深層透視能夠更精準(zhǔn)地聚焦原因和人群,顯然對社會治理有更大的幫助?;诖耍疚膶⒃敿?xì)展示一個大數(shù)據(jù)視角下的輿情觀測平臺——社會焦點(diǎn)透視鏡系統(tǒng)。該系統(tǒng)圍繞微博大數(shù)據(jù)進(jìn)行焦點(diǎn)事件及其情感分布的深層透視,旨在為新時代的社會治理提供創(chuàng)造性的思路。如前文所述,社會焦點(diǎn)透視鏡系統(tǒng)包括兩大部分的內(nèi)容:焦點(diǎn)事件發(fā)現(xiàn)與情感分布展示;焦點(diǎn)事件情感分布原因和人群的深層透視。在第一部分內(nèi)容中,本系統(tǒng)主要采用了事件抽取技術(shù)和情感分析技術(shù);在第二部分內(nèi)容中,主要采用情感原因分析技術(shù)和用戶畫像技術(shù)。本文以“9·3閱兵”為例,呈現(xiàn)社會焦點(diǎn)透視鏡系統(tǒng)的淺層和深層分析展示結(jié)果。
2 社會焦點(diǎn)透視鏡系統(tǒng)
社會焦點(diǎn)透視鏡系統(tǒng)是一個實(shí)時的互聯(lián)網(wǎng)大數(shù)據(jù)輿情監(jiān)測平臺。通過對微博海量數(shù)據(jù)的分析、挖掘和可視化,構(gòu)建社會焦點(diǎn)事件的發(fā)現(xiàn)、追蹤和挖掘的深層透視。圖2展示了社會焦點(diǎn)透視鏡系統(tǒng)的流程,共包括兩部分內(nèi)容:社會焦點(diǎn)事件的淺層分析和社會焦點(diǎn)事件的深層透視。
圖 2 社會焦點(diǎn)透視鏡的系統(tǒng)流程
●社會焦點(diǎn)透視鏡的淺層分析:主要包括事件發(fā)現(xiàn)和情感分析兩個模塊。淺層分析可以每隔2h實(shí)時更新當(dāng)天的焦點(diǎn)事件,并實(shí)時對這些焦點(diǎn)事件進(jìn)行民眾情感的分析。如圖1(a)右側(cè)框中所示的焦點(diǎn)事件以及情感分布。此外,社會焦點(diǎn)透視鏡的淺層分析還可以實(shí)時給出全國各省民眾的整體情緒指數(shù)及各省民眾關(guān)心的焦點(diǎn)事件。如圖1(a)中顯示的地圖,從深至淺代表了情緒指數(shù)(喜悅情緒)由高至低。
●社會焦點(diǎn)透視鏡的深層透視:主要包括情感歸因分析和基于用戶畫像的情感分析兩個模塊。深層透視是對某一段時期的某一個焦點(diǎn)事件的深層剖析。主要從兩個角度入手,一個是導(dǎo)致某一種情緒的事件原因,另一個是導(dǎo)致某一種情緒的人群歸類。
下面將詳細(xì)介紹每個模塊。
2.1 數(shù)據(jù)來源
選擇新浪微博作為實(shí)時的數(shù)據(jù)來源。新浪微博匯集了有關(guān)焦點(diǎn)事件的民眾的多角度評論以及民眾每天的行為情緒動態(tài)。社會焦點(diǎn)透視鏡系統(tǒng)每天的微博處理總量在1 600萬條微博左右,每2 h更新一次。數(shù)據(jù)格式見表1。
表 1 微博數(shù)據(jù)格式
2.2 預(yù)處理
預(yù)處理主要包括兩個部分:文本噪聲預(yù)處理和文本分析預(yù)處理。
文本噪聲預(yù)處理部分包括去廣告、去水軍和文本去重等步驟??紤]到微博可能存在的廣告會對后續(xù)的事件發(fā)現(xiàn)和情感分類等步驟造成干擾,本文收集了400條廣告標(biāo)記短語,用于過濾帶有廣告詞匯的微博;同時結(jié)合新浪微博數(shù)據(jù)中心的水軍過濾算法,初步緩解部分話題水軍泛濫的問題;考慮到每日系統(tǒng)需要處理海量數(shù)據(jù)的微博,其中部分微博存在表述重復(fù)的現(xiàn)象,針對性地對其進(jìn)行去重處理。
文本分析預(yù)處理部分包括必要字符的替換、分詞和詞性標(biāo)注等步驟。考慮到微博文本的特點(diǎn),即用戶信息(例如“@張三”)和短鏈接信息(例如“http://t.cn/Ryrc”)等會對后續(xù)的步驟造成干擾,所以本文對其進(jìn)行必要的替換或屏蔽;后續(xù)步驟本文使用哈爾濱工業(yè)大學(xué)語言技術(shù)平臺(language technology platform, LTP)對文本進(jìn)行精準(zhǔn)的分詞與詞性標(biāo)注。
2.3 事件發(fā)現(xiàn)
這里的事件具體是指微博焦點(diǎn)事件,即在短時間內(nèi)被大量用戶高度關(guān)注、討論的話題。有些話題與社會事件密切相關(guān),如“長江游輪傾覆”、“馬航失聯(lián)”等;有些話題與社會事件無關(guān),但仍在短時間內(nèi)獲得了很高的關(guān)注度,如:“你最喜愛的男神”、“最美英語教師”等。微博焦點(diǎn)事件不同于官方媒體的頭條新聞,微博植根于草根之中,是普通大眾的心聲或思想的網(wǎng)絡(luò)直接反饋?;诖耍诰蚝棋绾5奈⒉┲械慕裹c(diǎn)事件變得尤為重要。