其次,樸素貝葉斯假設(shè)的就是文本當(dāng)中的詞匯與詞匯之間是相互獨(dú)立的,跟我們的業(yè)務(wù)也不相符合,比如之前提到的“態(tài)度不好”這兩個詞基本是會關(guān)聯(lián)出現(xiàn)的,不會單獨(dú)分開出現(xiàn),如果單獨(dú)統(tǒng)計也就失去了意義。
所以我們發(fā)現(xiàn)當(dāng)我們的業(yè)務(wù)描述語言和業(yè)務(wù)描述邏輯非常復(fù)雜的時候,統(tǒng)計的準(zhǔn)確度都不會太高。剛才又提到需要自動提取對象屬性評價用戶觀點(diǎn),一開始用戶的觀點(diǎn)是在討論一個個話題,是不是可以用基于LDA這樣的模型完成話題的提取呢?
我們也做一些嘗試,最后發(fā)現(xiàn)像LDA提取出來的話題有時候過粗,不適合我們的具體業(yè)務(wù),比如我們想要的是“柜員態(tài)度不好”,最后只能精確到柜員描述的層面,作為一個非精度的模型比較難以調(diào)優(yōu),有某幾個話題質(zhì)量不是太高甚至存在重復(fù)話題的時候,沒有辦法做針對性的調(diào)優(yōu),最重要的一點(diǎn)還是它的可警示性比較差,分析出一些主題之后沒有辦法把話題歸納成我們所需要的對象屬性的評價形式。
既然我們嘗試過一些典型的傳統(tǒng)方法不太適用的時候,接下來怎么辦?我們選擇了本體模型,從具體的實(shí)際業(yè)務(wù)出發(fā)建立這樣一套適用于業(yè)務(wù)的一套本體體系,首先介紹一下本體是什么概念?
本體最早是一個哲學(xué)概念,在哲學(xué)層面指的是現(xiàn)實(shí)世界中事物的具體存在,比如我手上拿的話筒具體的事物存在就是本體,比如我們還可以稱它話筒或麥克風(fēng),甚至可以拿一張話筒的圖片來描述它。
把本體概念引申到信息科學(xué)的語義層面就變成知識科學(xué)體系。首先我們用本體表示多層次的業(yè)務(wù)分類或具體的業(yè)務(wù)目標(biāo),本體業(yè)務(wù)可以由要素和概念兩個不同的層面構(gòu)成,要素是業(yè)務(wù)層次,一般描述業(yè)務(wù)對象或業(yè)務(wù)屬性,這跟我們的專業(yè)領(lǐng)域相關(guān),需要專家來維護(hù),在銀行領(lǐng)域就需要維護(hù)像“信用卡”和“借記卡”這樣的業(yè)務(wù)要素。
概念是語言層次,描述基礎(chǔ)的語言概念,比如說我們對時間怎么描述、對地點(diǎn)怎么描述,包括人的情緒或者人對事物的評價等等,這些語言概念由于基礎(chǔ)的資源,它跟專業(yè)的業(yè)務(wù)領(lǐng)域是不相關(guān)的,這就可以由我們的技術(shù)人員協(xié)助業(yè)務(wù)專家做一些收集和積累,比如說常見的一些語言概念,比如對于“不及時”怎么說,對于“異?!庇心男┱f法。
在我們的設(shè)計當(dāng)中把業(yè)務(wù)層次和語言層次進(jìn)行了相互分離,這樣的事情就有兩方面的好處,我們的業(yè)務(wù)專家就可以專注在業(yè)務(wù)要素的維護(hù)上,而不需要再去關(guān)注語言上的表達(dá)細(xì)節(jié)。另外,這些語言概念有些是不相關(guān)的,就有比較高的附庸性。
本體模型的示例和難點(diǎn)
具體模型示例,我們建立的銀行客戶建立本體體系,跟剛才提到的客戶分類體系是完全一致的,這里面有一個本體叫“工作人員”,它又可以和對象要素和屬性要素進(jìn)行關(guān)聯(lián),對象要素包括柜員、保安、保潔、大堂經(jīng)理,屬性要素包括態(tài)度、業(yè)務(wù)熟練度,本體和要素又同時可以從第三個層次“概念”里相互關(guān)聯(lián),概念像好、快、熱情、熟練、故障。
通過對象要素、屬性要素和評價概念這三者進(jìn)行相互連接和組合就能夠構(gòu)成我們對工作人員這個本體挖掘表達(dá)式的設(shè)置,從中得到我們想要的三因素,比如像柜員態(tài)度好、大堂經(jīng)理業(yè)務(wù)熟練,同時我們只要知道這個觀點(diǎn)是在描述柜員或者保安,能夠把這樣一個情況給分類到工作人員這個類別下。
剛才介紹到這里的時候大家會感受到一個本體模型明顯的問題和難點(diǎn),這些本體還是依賴于人工梳理,人工很難,我們采用的是基于深度學(xué)習(xí)的本體半自動構(gòu)建方式,其中一個方式就是對文本當(dāng)中鄰近詞匯做剪輯,我們具體使用的是 Google 開源的 Word2Vec 詞向量模型。