2)離線計(jì)算,主要分三個(gè)處理階段。

預(yù)處理階段,這塊主要為后續(xù)數(shù)據(jù)挖掘做一些數(shù)據(jù)的準(zhǔn)備工作,數(shù)據(jù)去重,過(guò)濾,對(duì)缺失信息的補(bǔ)足。舉例來(lái)說(shuō)采集下來(lái)的用戶行為數(shù)據(jù),所含有的產(chǎn)品信息很少,我們會(huì)使用產(chǎn)品表的數(shù)據(jù)進(jìn)行一些補(bǔ)足,確保給后續(xù)的數(shù)據(jù)挖掘使用時(shí)候盡量完整的。
數(shù)據(jù)挖掘階段,主要運(yùn)用一些常用的數(shù)據(jù)挖掘算法進(jìn)行模型訓(xùn)練和推薦數(shù)據(jù)的輸出(分類(lèi)、聚類(lèi)、回歸、CF等)。
結(jié)果導(dǎo)入階段,我們通過(guò)可配置的數(shù)據(jù)導(dǎo)入工具將推薦數(shù)據(jù),進(jìn)行一系列轉(zhuǎn)換后,導(dǎo)入到HBase、Redis以及建立ES索引,Redis存儲(chǔ)的是經(jīng)統(tǒng)計(jì)計(jì)算出的熱點(diǎn)數(shù)據(jù)。