大數(shù)據(jù)時(shí)代里,互聯(lián)網(wǎng)用戶每天都會(huì)直接或間接使用到大數(shù)據(jù)技術(shù)的成果,直接面向用戶的比如搜索引擎的排序結(jié)果,間接影響用戶的比如網(wǎng)絡(luò)游戲的流失用戶預(yù)測(cè)、支付平臺(tái)的欺詐交易監(jiān)測(cè)等等。達(dá)觀數(shù)據(jù)技術(shù)團(tuán)隊(duì)開發(fā)過智能文本內(nèi)容審核系統(tǒng)、作弊監(jiān)測(cè)系統(tǒng)、用戶建模系統(tǒng)等多個(gè)基于大數(shù)據(jù)技術(shù)的應(yīng)用系統(tǒng)。機(jī)器學(xué)習(xí)是大數(shù)據(jù)挖掘的一大基礎(chǔ),本文以機(jī)器學(xué)習(xí)為切入點(diǎn),將達(dá)觀在大
互聯(lián)網(wǎng)的海量數(shù)據(jù)不可能靠人工一個(gè)個(gè)處理,只能依靠計(jì)算機(jī)批量處理。最初的做法是人為設(shè)定好一些規(guī)則,由機(jī)器來執(zhí)行。比如明確指定計(jì)算機(jī)給男性、30歲的用戶推送汽車廣告。很明顯如此粗略的規(guī)則不會(huì)有好效果,因?yàn)閷?duì)人群的定位不夠精確。要提高精度必須增加對(duì)用戶的特征描述。但特征一多規(guī)則就很難制定,即使定下了規(guī)則也沒法根據(jù)實(shí)際情況靈活變化。機(jī)器學(xué)習(xí)可以很好的解決以上問題,從一定程度上賦予了計(jì)算機(jī)以“學(xué)習(xí)”的能力,使得千人千面成為可能。
圖 1 面對(duì)大量的特征,人工難以確定使用的規(guī)則
有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)
機(jī)器學(xué)習(xí)以統(tǒng)計(jì)學(xué)為理論基礎(chǔ),利用算法讓機(jī)器具有類似人類一般的自動(dòng)“學(xué)習(xí)”能力,即對(duì)已知的訓(xùn)練數(shù)據(jù)做統(tǒng)計(jì)分析從而獲得規(guī)律,再運(yùn)用規(guī)律對(duì)未知數(shù)據(jù)做預(yù)測(cè)分析。機(jī)器學(xué)習(xí)主要包含四大類別: