3 數(shù)據(jù)融合中的模式轉(zhuǎn)換
電信大數(shù)據(jù)分析面臨9個關(guān)鍵的挑戰(zhàn),分別是特征工程、預(yù)測算法、根本原因分析、實時分析、時空數(shù)據(jù)挖掘、知識工程、多媒體挖掘、圖挖掘和隱私保護。
3.1 以時空數(shù)據(jù)為核心的特征工程
隨著移動設(shè)備和移動互聯(lián)網(wǎng)的普及,隨時隨地使用移動終端已經(jīng)成為人們的一種基本生活習(xí)慣。因而電信數(shù)據(jù)成為獲取城市用戶、區(qū)域細粒度時空行為信息的重要數(shù)據(jù)源。這些細粒度行為信息可以被用作建模的重要特征,從而大幅提升電信數(shù)據(jù)挖掘效果[1]。因為電信數(shù)據(jù)來自多個數(shù)據(jù)源,如BSS(B域)的數(shù)據(jù)來自CRM(customer relationship management,客戶關(guān)系管理)、賬單、BI(business intelligence,商業(yè)智能)、客服和渠道等系統(tǒng),OSS(O域)的數(shù)據(jù)來自于MR(measurement report,測量報告)、Gn口和Mc口等系統(tǒng),時空和用戶ID關(guān)聯(lián)是把這些數(shù)據(jù)整合成統(tǒng)一特征集合的關(guān)鍵因素。以時空數(shù)據(jù)為核心的特征工程需要結(jié)合B域和O域進行關(guān)聯(lián)分析,找出網(wǎng)絡(luò)和用戶特征的關(guān)聯(lián)性。如圖4所示,復(fù)雜的特征工程可以在以時空數(shù)據(jù)為核心的各種數(shù)據(jù)類型上構(gòu)建。如人的社交關(guān)系可以表述為電話網(wǎng)絡(luò)、短信網(wǎng)絡(luò)和接觸網(wǎng)絡(luò)(兩個人在相近時間、相近地點出現(xiàn)算是一次有效接觸)。每個電話、短信或接觸都有發(fā)生的時間和地點。需要設(shè)計有效的算法研究如何在這種有時空約束的圖中提取反映用戶復(fù)雜社會關(guān)系的特征。另一個例子是將用戶的賬單、影響力或者離網(wǎng)行為映射到每個位置上來評估每個位置的價值,從而可以得到高價值用戶或者離網(wǎng)用戶聚集的位置,開展基于位置的服務(wù)和營銷。同時也可以構(gòu)建基于用戶行為的基站投資分析,得出精確基站選址目標。將通信行為、互聯(lián)網(wǎng)行為、消費行為、營銷反饋行為映射到時空位置坐標,也可以開放給其他行業(yè),輸出專業(yè)性的評估報告,有助零售業(yè)或者旅游業(yè)掌握移動用戶的行為。例如,西班牙電信Telefonica的SmartSteps洞察方案將時空數(shù)據(jù)脫敏后開放給行業(yè)客戶,每年有數(shù)千萬歐元營收。其他的多媒體數(shù)據(jù)(客服語音記錄)、文本數(shù)據(jù)(服務(wù)記錄和移動搜索記錄)和用戶軌跡數(shù)據(jù)等都需要設(shè)計有效的特征提取算法。所以電信大數(shù)據(jù)挖掘的第一個核心挑戰(zhàn)是以時空數(shù)據(jù)為核心的異構(gòu)特征工程。