分析人員在針對(duì)具體問(wèn)題進(jìn)行分析前要學(xué)習(xí)很多算法,除此之外還要關(guān)注如下重要的問(wèn)題。
(1)評(píng)估方法是關(guān)鍵
算法要在新數(shù)據(jù)上的表現(xiàn)和在樣本數(shù)據(jù)上的表現(xiàn)幾乎一樣好。比較好的做法是把數(shù)據(jù)集一分為二,一部分用于訓(xùn)練模型,一部分用于模型評(píng)估。交叉驗(yàn)證,觀察算法的穩(wěn)定性。如果算法不能穩(wěn)定下來(lái),那么結(jié)果是非常可疑的。因?yàn)榉?wù)的領(lǐng)域是公共服務(wù)領(lǐng)域,如果一旦錯(cuò)誤執(zhí)行,就會(huì)存在很大危害。另外,訓(xùn)練模型也不能訓(xùn)練過(guò)度,避免出現(xiàn)過(guò)度擬合的問(wèn)題。
(2)特征提取是根本
分析人員不要迷信算法,大多數(shù)復(fù)雜算法效果大同小異。但要確保完全理解這些等價(jià)算法中的一種,然后一直用下去。
在分析過(guò)程中如果能找到合適的特征,對(duì)于達(dá)到分析目標(biāo)所需的樣本數(shù)據(jù)量就能大大縮減。數(shù)據(jù)分析人員需要完整地掌握各種特征工程來(lái)快速找到樣本數(shù)據(jù)的特征向量。如果分析人員非常懂業(yè)務(wù),也可以彌補(bǔ)特征工程經(jīng)驗(yàn)不足的短板。特征提取是大數(shù)據(jù)分析非常重要的成功因素。
(3)時(shí)間瓶頸是模型訓(xùn)練,而不是數(shù)據(jù)集規(guī)模
在模型訓(xùn)練過(guò)程中,需要花費(fèi)大量的精力進(jìn)行參數(shù)優(yōu)化,從而得出比較合理的解。在承諾給政府部門一個(gè)分析結(jié)果之前,應(yīng)該充分留有這部分的時(shí)間。