2.特征空間表示(典型的如PCA)
文本特征經(jīng)常采用的基于信息增益方法(IG)特征選擇方法[3]。某個特征的信息增益是指,已知該特征條件下,整個系統(tǒng)的信息量的前后變化。如果前后信息量變化越大,那么可以認(rèn)為該特征起到的作用也就越大。
那么,如何定義信息量呢?一般采用熵的概念來衡量一個系統(tǒng)的信息量:
當(dāng)我們已知該特征時,從數(shù)學(xué)的角度來說就是已知了該特征的分布,系統(tǒng)的信息量可以由條件熵來描述:
該特征的信息增益定義為:
信息增益得分衡量了該特征的重要性。假設(shè)我們有四個樣本,樣本的特征詞包括“火鍋”、“米粉”、“館”,我們采用信息增益判斷不同特征對于決策影響:
米粉(A)火鍋(B)館(C)品類
整個系統(tǒng)的最原始信息熵為:
分別計算每個特征的條件熵:
利用整個系統(tǒng)的信息熵減去條件熵,得到每個特征的信息增益得分排名(“火鍋”(1) > “米粉”(0.31) > “館”(0)) ,按照得分由高到低挑選需要的特征詞。
本文采用IG特征選擇方法,選擇得分排名靠前的N個特征詞(Top 30%)。我們抽取排名前20的特征詞:[酒店, 賓館, 火鍋, 攝影, 眼鏡, 美容, 咖啡, ktv, 造型, 汽車, 餐廳, 蛋糕, 兒童, 美發(fā), 商務(wù), 旅行社, 婚紗, 會所, 影城, 烤肉]。這些特征詞明顯與品類屬性相關(guān)聯(lián)具有較強相關(guān)性,我們將其稱之為品類詞。
基于領(lǐng)域知識的特征選擇方法
基于規(guī)則的特征選擇算法,利用領(lǐng)域知識選擇特征。目前很少單獨使用基于規(guī)則的特征選擇算法,往往結(jié)合統(tǒng)計學(xué)習(xí)的特征選擇算法,輔助挑選特征。
本文需要解決的是POI名稱字段短文本的自動分類問題,POI名稱字段一般符合這樣的規(guī)則,POI名稱 = 名稱核心詞 + 品類詞。名稱核心詞對于實際的品類預(yù)測作用不大,有時反而出現(xiàn)”過度學(xué)習(xí)“起到負(fù)面作用。例如”好利來牛肉拉面館“, ”好利來“是它的名稱核心詞,在用學(xué)習(xí)算法時學(xué)到的很有可能是一個”蛋糕“品類(”好利來“和”蛋糕“品類的關(guān)聯(lián)性非常強,得到錯誤的預(yù)測結(jié)論)。
本文使用該規(guī)則在挑選特征時做了一個trick:利用特征選擇得到的特征詞(絕大部分是品類詞),對POI名稱字段分詞,丟棄前面部分(主要是名稱核心詞),保留剩余部分。這種trick從目前的評測結(jié)果看有5%左右準(zhǔn)確率提升,缺點是會降低了算法覆蓋度。
分類模型