由于我們所獲取到的信息都是來源于互聯(lián)網(wǎng),有一個最大的特點,就是價值信息利用率特別低,困擾我們最大的問題是怎么在海量數(shù)據(jù)中篩選出最有價值的信息。
我們用一些比較精準(zhǔn)的關(guān)鍵詞獲取信息,比如說工行、工商銀行、ICBC、95588等等,但獲取回來的信息仍然存在大量垃圾信息,包括一些廣告、尋人尋物和招聘信息等等,垃圾信息占了80%以上的數(shù)據(jù)量,真正有用的信息,我們所需要的投訴、抱怨或者建議最多就是20%的量,怎么樣通過自動化的方式把垃圾信息過濾掉。
我們也嘗試一些簡單粗暴的方法,比如設(shè)置一些垃圾信息詞匯的過濾,像是積分有優(yōu)惠,刷卡有驚喜這樣的詞匯,大概能過濾掉三分之一的垃圾信息,但畢竟覆蓋是不全面的,這時候我們又使用這個方法,在這個場景下和剛才所說的場景就有所區(qū)別,現(xiàn)在變成了二次分類,我們在二次分類上做一些數(shù)據(jù)的交付是比較能夠容易實現(xiàn)的。
同時用樸素貝葉斯過濾一些垃圾郵件,最后發(fā)現(xiàn)樸素貝葉斯在這個方面是比較好的,廣告詞匯和我們有用的詞匯之間區(qū)分度也比較明顯。
完成了過濾垃圾信息之后,我們所看到的信息看上去比較干凈,但還是不能直接提供給分析師直接使用,因為我們采集到的數(shù)據(jù)來自于互聯(lián)網(wǎng)上的各個渠道,同一個事件在不同渠道有不同的報道,甚至同一個事件在社交網(wǎng)站上還有很多的評論,我們怎么樣把同一個事件、同一個報道聚合到一起呢?
首先我們想到了K-means的方法,但有一些局限性,比如K值是固定的,但是我不可能知道一堆新聞當(dāng)中存在多少話題和多少事件,同時這些事件也是不斷地在成長,新的話題不斷地在發(fā)生,這個時候我們引入了新的思想叫“中國餐館過程”進(jìn)行優(yōu)化。
這個可能是外國人提出來的,在外國人眼里中國人吃飯的時候喜歡跟中國人扎堆,當(dāng)我們進(jìn)入中國餐館的時候第一人坐在一張桌子上,第二個人進(jìn)來的時候會看跟第二個人的熟識程度怎么樣,如果認(rèn)識他就坐到第一張桌子上吃飯,如果不認(rèn)識就新開一張桌子自己一個人坐在那里吃飯,隨著大量顧客逐步進(jìn)入到餐館之后,通過這樣的原則坐定之后,自然而然的完成了聚類的過程,每張桌子上坐的是熟識的人,這跟我們是類似的。
新聞媒體跟社交媒體會做區(qū)分處理,主要是因為這兩個數(shù)據(jù)之間的措詞有比較大的區(qū)分,比如說在新聞媒體上的措詞相對比較正規(guī)、嚴(yán)謹(jǐn),在社交媒體上的措詞比較隨意一些,所以我們會對一個批次的數(shù)據(jù)首先做一個新聞媒體上的聚類,然后完成社交媒體的聚類。
第三步看社交媒體聚合出來的話題有沒有針對性的評論某個新聞事件,如果有第三類就把它劃過去,如果沒有它自己單獨成為一個話題。通過這樣的方式,我們的信息可以提供給分析師做查詢,他們查看各自領(lǐng)域當(dāng)中發(fā)生的重要事件。
但是這個時候業(yè)務(wù)方面給我們提出更加高的要求,能不能在重要事件發(fā)生的時候做到自動的提示預(yù)警,這就帶來一個問題,我們怎么判斷一個信息是重要還是一般呢?首先根據(jù)人的經(jīng)驗來看一下,影響一件事情成為重要一般有這樣一些分析因素。
首先是涉及的機(jī)構(gòu),如果一個事件跟工行相關(guān)比跟同業(yè)其它銀行相關(guān)更重要一些;二是帶有情感色彩;三是轉(zhuǎn)載數(shù)量;四是轉(zhuǎn)載媒體數(shù);五是來源渠道,來源于新聞網(wǎng)站的比來源于社交媒體的重要,因為新聞網(wǎng)站上的渠道比較正規(guī)正式,社交媒體上可能有大家隨口說的小道消息;六是有沒有關(guān)聯(lián)到我們的業(yè)務(wù)類型。
我們選擇了邏輯回歸的模型,通過歷史上發(fā)生的重要事件的學(xué)習(xí)就可以自動來識別這些即將發(fā)生的重要的信息。當(dāng)我們識別出重要信息之后,除了完成提示預(yù)警之外,還可以提供分析師做查詢的時候按重要度排序的方式,重要的信息可以提到前面來,每天我們可以把當(dāng)天的所有信息自動生成監(jiān)測日報提供給分析師做參考。