
圖 6 根本原因推斷算法輔助商業(yè)智能
3.4 實(shí)時(shí)分析能力逐步成為基本需求
OSS數(shù)據(jù)的一個(gè)特點(diǎn)是更新速度快,如用戶對(duì)網(wǎng)絡(luò)的體驗(yàn)、網(wǎng)絡(luò)故障診斷和位置更新信息,都是在秒級(jí)或者分鐘級(jí)采集產(chǎn)生的。這些數(shù)據(jù)一旦不及時(shí)處理分析,將失去商業(yè)價(jià)值。例如,客戶當(dāng)時(shí)上網(wǎng)體驗(yàn)不好(例如無(wú)法使用支付寶或者微信支付出租車費(fèi)),很有可能會(huì)即時(shí)撥打投訴電話,因此需要即時(shí)得到分析結(jié)果,并做一些補(bǔ)償措施,給用戶良好的體驗(yàn)。又例如網(wǎng)絡(luò)故障診斷,需要在故障發(fā)生之后,立即分析并隔離相關(guān)的網(wǎng)絡(luò)單元,啟動(dòng)備用方案?;谖恢玫臓I(yíng)銷需要及時(shí)判斷用戶的當(dāng)前位置,推送附近商鋪的合理產(chǎn)品,或者是當(dāng)用戶靠近營(yíng)業(yè)廳附近時(shí),推送合適的業(yè)務(wù)服務(wù)。實(shí)時(shí)分析能力需要流處理架構(gòu)和在線學(xué)習(xí)算法,通過統(tǒng)計(jì)、預(yù)測(cè)一個(gè)短時(shí)間窗口內(nèi)的數(shù)據(jù)流,迅速更新模型參數(shù),并做出決策。之后的決策都基于模型,不需要重新學(xué)習(xí)歷史數(shù)據(jù),因此大大加快了模型的更新速度和分析速度,達(dá)到實(shí)時(shí)處理的目標(biāo)。尤其對(duì)于海量OSS數(shù)據(jù),流處理和在線學(xué)習(xí)技術(shù)是非常必要的。另一個(gè)挑戰(zhàn)的技術(shù)方向是時(shí)間序列的挖掘,如何在數(shù)據(jù)流中快速捕捉數(shù)據(jù)在時(shí)序上的依賴關(guān)系(上下文關(guān)系),做出準(zhǔn)確的預(yù)測(cè),仍然十分困難,需要持續(xù)研究。
3.5 時(shí)空數(shù)據(jù)挖掘
電信數(shù)據(jù)相較于其他數(shù)據(jù)的一個(gè)核心優(yōu)勢(shì)就是含有用戶細(xì)粒度的時(shí)空行為信息。有效的挖掘并利用這些時(shí)空數(shù)據(jù)可以充分地發(fā)揮電信數(shù)據(jù)的價(jià)值。但是,電信時(shí)空數(shù)據(jù)的挖掘面臨4個(gè)核心挑戰(zhàn):數(shù)據(jù)的不精確性、數(shù)據(jù)的超稀疏性、數(shù)據(jù)的強(qiáng)依賴性和異構(gòu)性,如圖7所示。數(shù)據(jù)的不精確性是指通過電信數(shù)據(jù)計(jì)算的用戶位置精度遠(yuǎn)低于GPS精度(但是電信位置數(shù)據(jù)的好處是不需要客戶端任何負(fù)擔(dān),位置數(shù)據(jù)天然存在于網(wǎng)絡(luò)側(cè))。如圖7中淺色圓圈是某區(qū)域用戶真實(shí)GPS位置,淺色圓圈是使用基于距離的定位算法從電信記錄恢復(fù)的用戶位置[2]??梢钥吹街苯邮褂煤?jiǎn)單的基于位置的定位算法,數(shù)據(jù)存在很大的不精確性。如何設(shè)計(jì)更好的定位算法,如充分利用指紋和地圖等信息,降低位置數(shù)據(jù)的不確定性,是第1個(gè)挑戰(zhàn)。第2個(gè)挑戰(zhàn)是數(shù)據(jù)的超稀疏性。每個(gè)用戶只會(huì)出現(xiàn)在城市的一個(gè)很小的區(qū)域和一些小的時(shí)間片段中。如果把所有用戶的時(shí)空數(shù)據(jù)放在一起,把每個(gè)小時(shí)間片段和地點(diǎn)的組合看成一個(gè)記錄點(diǎn),一個(gè)用戶在絕大多數(shù)的記錄點(diǎn)都是沒有信息的。所以時(shí)空數(shù)據(jù)是一個(gè)超稀疏的數(shù)據(jù)集,如何處理并清洗這種超稀疏的數(shù)據(jù)集是一個(gè)技術(shù)挑戰(zhàn)。時(shí)空數(shù)據(jù)有很強(qiáng)的時(shí)間和空間關(guān)聯(lián)關(guān)系,如果按照時(shí)間切片或者地點(diǎn)切分將時(shí)空數(shù)據(jù)輸入數(shù)據(jù)挖掘模型,這種關(guān)聯(lián)關(guān)系就無(wú)法被有效地使用[3]。如何有效地組合使用有效的算法,如時(shí)間序列和神經(jīng)網(wǎng)絡(luò)來(lái)有效地表述時(shí)空數(shù)據(jù)的時(shí)空強(qiáng)依賴性,是第3個(gè)技術(shù)挑戰(zhàn)。第4個(gè)技術(shù)挑戰(zhàn)是時(shí)空數(shù)據(jù)和其他數(shù)據(jù)結(jié)合時(shí)導(dǎo)致的數(shù)據(jù)異構(gòu)性,如圖、文本挖掘都需要考慮相關(guān)數(shù)據(jù)產(chǎn)生的時(shí)間和地點(diǎn)才能進(jìn)行更有效的信息提取。