一些體會
文本領(lǐng)域挖掘過程中我們有一些具體的體會,比如首先選擇貼合業(yè)務(wù)算法的模型,通過剛才的介紹也可以看到在文本挖掘領(lǐng)域很多的分析模型都有一個特點,就是可復(fù)印性比較低,往往在一個領(lǐng)域比較有效的方法換個領(lǐng)域就不太有效了,甚至換一批數(shù)據(jù)準(zhǔn)確性就有很大的影響。
所以我們在選擇一些方法的時候需要針對具體的業(yè)務(wù)特征和具體業(yè)務(wù)的特色多做一些嘗試和實驗,通過實驗的數(shù)據(jù)來說話,我們到底選擇一個什么樣的比較合適的模型。
第二點是需要去注重語義資源庫的建設(shè),語義資源庫扮演重要的角色,雖然我們可以在互聯(lián)網(wǎng)上獲取重要的資源,比如說中文單詞的詞庫或情感辭典的詞庫,但是這些詞庫往往不能直接產(chǎn)生比較好的效果,因為這些詞庫只包含大眾的詞匯,這需要結(jié)合我們自身專業(yè)的特色。
比如說金融行業(yè)就要不斷地整理梳理自身所需要的特色詞匯,這個可能是需要投入比較大的精力的,我們在這個過程中也是花費(fèi)了不少的精力,最終才能夠完成我們所需要的分析的效果。
第三個問題,尤其是針對傳統(tǒng)行業(yè)來說的,因為大數(shù)據(jù)商業(yè)的概念其實已經(jīng)被炒的像一個神話一樣,大家都在說,其實也很少人知道應(yīng)該怎么去做,經(jīng)常我們得到一些需求都是特別宏觀、特別大的,其實都不太容易落地,從我們實際落地的角度來看,大數(shù)據(jù)要在傳統(tǒng)行業(yè)有效的落地還是要從解決小問題開始。
總結(jié)
最后做一個總結(jié)。今天我們討論了兩個話題,首先對于95588客戶意見挖掘設(shè)置了“對象-屬性-評價”這樣的方式,然后建立本體模型,針對本體模型我們設(shè)計了詞向量輔助建模。第二個話題在互聯(lián)網(wǎng)客戶心聲聆聽當(dāng)中,我們用樸素貝葉斯完成垃圾信息過濾,然后完成跨渠道事件聚類,最后完成重要信息的識別。