為什么傳說中充滿榮光的大數(shù)據(jù)分析會出現(xiàn)如此大的系統(tǒng)性誤差呢?從大數(shù)據(jù)的收集特征和估計方法的核心,我們可以探究一二。
◆ ◆ ◆
二、新瓶裝舊酒:過度擬合
大數(shù)據(jù)時代的來臨,為數(shù)據(jù)收集帶來了深刻變革。海量數(shù)據(jù)、實時數(shù)據(jù)、豐富多樣的非機構(gòu)數(shù)據(jù),以前所未有的廣度進入了人們的生活。但是不變的是,在統(tǒng)計分析方法上,數(shù)據(jù)挖掘(Data mining)仍然是統(tǒng)計分析的主要技術(shù)。而數(shù)據(jù)挖掘中最引人注目的過度擬合(overfitting)問題,由于下文提到的各類陷阱的存在,遠遠沒有解決。
我們先用一個故事來解釋過度擬合問題。假設(shè)有一所叫做象牙塔的警官學(xué)校致力于培養(yǎng)抓小偷的警察。該校宣稱,在他們學(xué)??梢砸姷剿蓄愋偷钠胀ㄈ恕⒁材芤姷剿蓄愋偷男⊥?到他們學(xué)校來學(xué)習(xí)就能成為世界上最厲害的警察。但是這所學(xué)校有個古怪,就是從不教授犯罪心理學(xué)。
象牙塔的教學(xué)方式是這樣的:將人群隨機分為十組,每組都是既有普通人又有小偷。學(xué)員可以觀察到前九組所有人,也知道誰是普通人誰是小偷。學(xué)員要做的是,根據(jù)自己從前九組中了解到的小偷特征,從第十組中找出小偷。比如學(xué)員從前九組觀察到小偷更喜歡在給孩子買尿布的時候也買啤酒,那么在第十組觀察到有人在買尿布時也買啤酒,就作為一個嫌疑條件。完成這個過程之后,學(xué)校再將人群打散重新分成十組,如此循環(huán)往復(fù),之后學(xué)校進行測試。測試方式就是再次將人群隨機分為十組,看誰能最快最準(zhǔn)根據(jù)前九組的信息找出第十組的小偷。冠軍即象牙塔最棒警察,可以派到社會上抓小偷了。
一段時間后,問題來了:象牙塔最棒警察在象牙塔校內(nèi)總能迅速找到小偷,可一旦出了象牙塔, 該警察就老犯錯抓、該抓不抓的錯誤。他抓小偷的表現(xiàn),甚至比重來沒有來象牙塔學(xué)習(xí)的人還要差。
在這個故事里,象牙塔最棒警察就相當(dāng)于根據(jù)大數(shù)據(jù)的數(shù)據(jù)挖掘方法、機器學(xué)習(xí)過程之后挑選出來的最優(yōu)模型。小偷相當(dāng)于特定問題需要甄選出的對象,比如得流感的人、不干預(yù)就會自殺的人、賴賬的人。前九組的人就相當(dāng)于用于訓(xùn)練模型的訓(xùn)練數(shù)據(jù);第十組人則相當(dāng)于檢驗訓(xùn)練結(jié)果的檢驗數(shù)據(jù)。不教授犯罪心理學(xué)就意味著抓小偷并不需要理解小偷為什么會成為小偷,類似于在數(shù)據(jù)分析中只關(guān)心相關(guān)關(guān)系而不關(guān)注因果關(guān)系。訓(xùn)練最佳警察的過程,就類似于運用機器學(xué)習(xí)技術(shù), 采用訓(xùn)練數(shù)據(jù)來訓(xùn)練模型,然后采用檢驗數(shù)據(jù)來選擇模型,并將預(yù)測最好的模型作為最佳模型,用于未來的各類應(yīng)用中 。