在社會(huì)焦點(diǎn)透視鏡系統(tǒng)中,設(shè)計(jì)了一個(gè)實(shí)時(shí)微博焦點(diǎn)事件抽取框架。該框架的核心是基于統(tǒng)計(jì)的思想,利用啟發(fā)式規(guī)則和聚類(lèi)算法。該框架主要包含3個(gè)組成部分,分別如下。
●話題發(fā)現(xiàn):候選熱點(diǎn)話題發(fā)現(xiàn)。
●話題聚類(lèi):候選熱點(diǎn)話題聚類(lèi)。
●話題排序:對(duì)聚類(lèi)得到的話題聚簇進(jìn)行排序,排序靠前的即焦點(diǎn)事件。
具體的算法可見(jiàn)參考文獻(xiàn)[6]。
2.4 情感分析
這里使用的情感分析技術(shù)具體是指面向焦點(diǎn)事件的情緒分類(lèi),最終顯示為如圖1(a)所示的焦點(diǎn)事件的情緒分布。其中的基礎(chǔ)技術(shù)環(huán)節(jié)是,針對(duì)一條包含焦點(diǎn)事件的微博,判斷它所表達(dá)的情緒是“喜悅”、“憤怒”、“悲傷”、“恐懼”還是“驚奇”。
情緒分類(lèi)是情感分析領(lǐng)域研究得比較深入的一項(xiàng)基礎(chǔ)任務(wù),主要有基于情感詞和基于分類(lèi)器兩大類(lèi)方法。其中基于SVM(support vector machine,支持向量機(jī))和豐富特征的方法是最經(jīng)典和快速的方法[7]。近年來(lái),隨著深度學(xué)習(xí)在自然語(yǔ)言處理的深入發(fā)展,深度學(xué)習(xí)技術(shù)在情感分類(lèi)領(lǐng)域也取得了較好的效果[8]。因此,在社會(huì)焦點(diǎn)透視鏡系統(tǒng)中,筆者采用了詞向量和SVM經(jīng)典特征相結(jié)合的方法[9],取得了較好的性能。
這里值得一提的是,微博的口語(yǔ)化較為嚴(yán)重,充斥著隱式情感(如:“滿(mǎn)滿(mǎn)的正能量”,“我給他打滿(mǎn)分”)和反諷(如:“你真是太給我長(zhǎng)臉了!”)、隱喻(如:“此人是垃圾”)等豐富的語(yǔ)言現(xiàn)象,這給情感分析技術(shù)提出了較大的挑戰(zhàn),這也是未來(lái)努力的目標(biāo)。
2.5 情感歸因分析
如前文所述,“事件發(fā)現(xiàn)”和“情感分析”模塊屬于社會(huì)焦點(diǎn)透視鏡系統(tǒng)的淺層分析。用戶(hù)更想探究的是為何會(huì)有某種情緒的產(chǎn)生、什么導(dǎo)致了某種情緒等更深層的透視。這也是本文的社會(huì)焦點(diǎn)透視鏡系統(tǒng)不同于國(guó)內(nèi)外其他現(xiàn)有系統(tǒng)的重要區(qū)別所在。在該系統(tǒng)中,第一層次的透視就是面向焦點(diǎn)事件的民眾情緒的原因分析,具體體現(xiàn)為哪個(gè)子事件的發(fā)生導(dǎo)致了這種情緒。
本系統(tǒng)首次提出了情感歸因分析任務(wù),并使用自動(dòng)抽取用戶(hù)自然標(biāo)注的Hashtag作為子事件的算法來(lái)解釋焦點(diǎn)事件的原因分析。圖3顯示的是“長(zhǎng)江游輪傾覆”事件的“喜悅”和“憤怒”兩種情緒的原因分析。從圖3(a)中可以看出,子事件“沉船內(nèi)部有生命跡象”和“載客458人已救起8人”的情緒分布中“喜悅”的情緒占據(jù)了一定的比重,因此這兩個(gè)子事件可以用來(lái)解釋“長(zhǎng)江游輪傾覆”事件所表露出的“喜悅”情緒。從圖3(b)中可以看出,子事件“乘客家屬收到詐騙短信”的情緒分布中“憤怒”的情緒占據(jù)了大部分的比重,因此該子事件可以用來(lái)解釋“長(zhǎng)江游輪傾覆”事件所表露出的“憤怒”情緒。具體的算法細(xì)節(jié)可見(jiàn)參考文獻(xiàn)[10]。
圖 3 “長(zhǎng)江游輪傾覆”事件的“喜悅”和“憤怒”兩種情緒歸因分析
2.6 基于用戶(hù)畫(huà)像的情感分析
除了焦點(diǎn)事件的情緒歸因分析之外,用戶(hù)不同群體與情緒之間的對(duì)照也是社會(huì)焦點(diǎn)透視鏡系統(tǒng)深層透視的重要組成部分。事實(shí)證明,不同的用戶(hù)群體對(duì)同一事件的情緒反饋也不同。如圖1(c)所示,不同性別的用戶(hù)對(duì)“文章出軌事件”的情緒反饋是不同的。用戶(hù)群體的特性除了用性別表示外,還有職業(yè)、年齡、地域等不同的用戶(hù)畫(huà)像角度,都可以從不同的側(cè)面展示出不同的用戶(hù)群體對(duì)同一事件的情緒反饋。如果能夠?qū)⒂脩?hù)的各個(gè)畫(huà)像角度與情緒分析相結(jié)合,無(wú)疑是從用戶(hù)角度對(duì)焦點(diǎn)事件的深層次透視。
在目前的社會(huì)焦點(diǎn)透視鏡系統(tǒng)中,僅僅針對(duì)用戶(hù)的地域和性別兩個(gè)維度的屬性,對(duì)提及的微博數(shù)量進(jìn)行了統(tǒng)計(jì)分析,圖4(a)和圖4(b)分別展示了針對(duì)“長(zhǎng)江游輪傾覆”事件用戶(hù)在省份和性別這兩個(gè)維度上的微博數(shù)量。當(dāng)然,將不同的用戶(hù)屬性與其情感分布進(jìn)行對(duì)照是更深入的社會(huì)輿情透視,這也將是下一步的研究工作。
圖 4 “長(zhǎng)江游輪傾覆”事件微博數(shù)量