
圖 8 知識(shí)圖譜用于沉淀并管理業(yè)務(wù)知識(shí)
3.7 多媒體數(shù)據(jù)挖掘
電信數(shù)據(jù)中的多媒體數(shù)據(jù)主要指客服的語音記錄。語音記錄中包含了客戶關(guān)注的問題和客服服務(wù)質(zhì)量和有效性信息。與客服人員手工記錄的文字信息相比,客服語音信息包含更原始和真實(shí)的信息,如客戶的情緒、關(guān)注點(diǎn)和客服的效率等信息。有效地挖掘這些信息可以自動(dòng)化地發(fā)現(xiàn)咨費(fèi)、網(wǎng)絡(luò)、服務(wù)和競爭對手的問題,提升服務(wù)質(zhì)量。語音數(shù)據(jù)中提取的特征也可以被有效地應(yīng)用于其他數(shù)據(jù)挖掘模型。語音數(shù)據(jù)的處理包含兩個(gè)部分,語音識(shí)別和文本自然語言處理。語音識(shí)別主要有兩個(gè)挑戰(zhàn),一個(gè)是當(dāng)前電信記錄系統(tǒng)很多是8音道數(shù)據(jù),數(shù)據(jù)質(zhì)量較差;另一個(gè)挑戰(zhàn)是語音中含有很多方言和電信業(yè)務(wù)相關(guān)專用詞匯,需要特殊的算法提升識(shí)別精度。語音識(shí)別為文本后,需要自然語言處理算法準(zhǔn)確地提取關(guān)注主題、客戶情緒和服務(wù)質(zhì)量等信息。當(dāng)前深度學(xué)習(xí)技術(shù)已經(jīng)在百度和谷歌等公司的語音識(shí)別和自然語言處理方面顯示出強(qiáng)大的能力。如圖9所示,如何針對電信語音數(shù)據(jù)設(shè)計(jì)合適的深度學(xué)習(xí)算法是多媒體數(shù)據(jù)挖掘的技術(shù)挑戰(zhàn)。