最后,警察在象牙塔內(nèi)能快速抓小偷而校外不能,就是過度擬合問題。由于在學(xué)校通過多次重復(fù)練習(xí),學(xué)員小偷的特征已經(jīng)爛熟于心,因此無論怎么隨機(jī)分,都能快速找到小偷并且不出錯(cuò);這就相當(dāng)于訓(xùn)練模型時(shí),由于已經(jīng)知道要甄選人群的特征,模型能夠?qū)颖緝?nèi)觀測值作出很好的擬合。又由于象牙塔學(xué)校判斷小偷的標(biāo)準(zhǔn)主要看外部特征而不去理解內(nèi)在原因,比如小偷常戴鴨舌帽,那么當(dāng)社會(huì)人群里的小偷特征與象牙塔人群有很大差別時(shí),比如社會(huì)上的小偷更常戴禮帽,在象牙塔內(nèi)一抓一個(gè)準(zhǔn)的鴨舌帽標(biāo)準(zhǔn),到社會(huì)就變成一抓一個(gè)錯(cuò)了。也就是說,在樣本內(nèi)預(yù)測很好的模型,到樣本外預(yù)測很差。 這,就是過度擬合的問題。
從過度擬合角度可以幫助我們理解為什么GFT在2009年表現(xiàn)好而之后表現(xiàn)差。在2009年,GFT已經(jīng)可以觀察到2007-2008年間的全部CDC數(shù)據(jù),也就是說GFT可以清楚知道CDC報(bào)告的哪里發(fā)病率高而哪里發(fā)病率低。這樣,采用上述訓(xùn)練數(shù)據(jù)和檢驗(yàn)數(shù)據(jù)尋找最佳模型的方法時(shí)標(biāo)準(zhǔn)就很清晰,就是不惜代價(jià)高度擬合現(xiàn)有發(fā)病率。 Lazer 等人發(fā)現(xiàn),GFT在預(yù)測2007-2008年流感流行率時(shí),存在丟掉一些看似古怪的搜索詞,而用另外的5000萬搜索詞去擬合1152個(gè)數(shù)據(jù)點(diǎn)的情況。
2009年之后,該模型面對的數(shù)據(jù)就真正是未知的,這時(shí)如果后來的數(shù)據(jù)特征與2007-2008年的數(shù)據(jù)高度相似,那么GFT也該可以高度擬合CDC估計(jì)值。但現(xiàn)實(shí)是無情的,系統(tǒng)性誤差的存在,表明GFT在一些環(huán)節(jié)出了較大偏差而不得不面對過度擬合問題。
從上面的故事可以看到,產(chǎn)生過度擬合有三個(gè)關(guān)鍵環(huán)節(jié)。第一,象牙塔學(xué)校認(rèn)定本校知道所有普通人與所有小偷的特征,也就等于知道了社會(huì)人群特征。第二,象牙塔學(xué)校訓(xùn)練警察,不關(guān)心小偷的形成原因,主要追求細(xì)致掌握已知小偷的特征。第三,象牙塔學(xué)校認(rèn)為,不論時(shí)間如何變化,本校永遠(yuǎn)能保證掌握的普通人和小偷的行為特征不會(huì)發(fā)生大規(guī)模變動(dòng)、特別是不會(huì)因?yàn)楸拘5挠?xùn)練而發(fā)生改變。
在大數(shù)據(jù)這個(gè)新瓶里,如果不避開下面的三個(gè)陷阱,就仍然可能裝著數(shù)據(jù)挖掘帶來的過度擬合舊酒:大數(shù)據(jù)自大、算法演化、看不見的動(dòng)機(jī)導(dǎo)致的數(shù)據(jù)生成機(jī)制變化。
◆ ◆ ◆
三、大數(shù)據(jù)分析的挑戰(zhàn)