
圖 4 以時(shí)空數(shù)據(jù)為核心的特征工程
3.2 更加精準(zhǔn)的預(yù)測算法
當(dāng)特征工程完成以后,下一步需要做的是預(yù)測(如離網(wǎng)預(yù)測[1]),并根據(jù)預(yù)測結(jié)果做決策。業(yè)務(wù)價(jià)值通常取決于預(yù)測的精度,精度越高越好。圖5對比了傳統(tǒng)數(shù)據(jù)挖掘的預(yù)測流程和大數(shù)據(jù)下的預(yù)測流程,主要區(qū)別之一是傳統(tǒng)數(shù)據(jù)挖掘采用的預(yù)測模型較簡單(參數(shù)少),無法刻畫數(shù)據(jù)統(tǒng)計(jì)分布的細(xì)節(jié),而大數(shù)據(jù)背景下,通常采用大規(guī)模參數(shù)學(xué)習(xí)(如支撐十億級別的模型參數(shù)處理百萬級別的稠密連續(xù)特征向量),從而充分刻畫統(tǒng)計(jì)細(xì)節(jié)和數(shù)據(jù)的相互依賴關(guān)系,達(dá)到更高的預(yù)測精度和更好的解釋。傳統(tǒng)的梯度下降(上升)算法在并行架構(gòu)下可以優(yōu)化大規(guī)模參數(shù)的神經(jīng)網(wǎng)絡(luò)模型,是未來高精度預(yù)測算法發(fā)展的主要方向之一。但是,電信領(lǐng)域的數(shù)據(jù)種類相對互聯(lián)網(wǎng)領(lǐng)域數(shù)據(jù)種類較少,通常使用較少的特征也能帶來業(yè)務(wù)性能的提升。未來需要更多的實(shí)驗(yàn)驗(yàn)證高維豐富的特征對電信業(yè)務(wù)的有效性和必要性。