在线播放的av地址,爆乳巨胸国产3D动漫无码在线观看视频,有码午夜在线

為什么傳說中充滿榮光的大數(shù)據(jù)分析會出現(xiàn)如此大的系統(tǒng)性誤差呢?從大數(shù)據(jù)的收集特征和估計方法的核心，我們可以探究一二。

◆ ◆ ◆

二、新瓶裝舊酒：過度擬合

大數(shù)據(jù)時代的來臨，為數(shù)據(jù)收集帶來了深刻變革。海量數(shù)據(jù)、實時數(shù)據(jù)、豐富多樣的非機構(gòu)數(shù)據(jù)，以前所未有的廣度進入了人們的生活。但是不變的是，在統(tǒng)計分析方法上，數(shù)據(jù)挖掘(Data mining)仍然是統(tǒng)計分析的主要技術(shù)。而數(shù)據(jù)挖掘中最引人注目的過度擬合(overfitting)問題，由于下文提到的各類陷阱的存在，遠遠沒有解決。

我們先用一個故事來解釋過度擬合問題。假設(shè)有一所叫做象牙塔的警官學(xué)校致力于培養(yǎng)抓小偷的警察。該校宣稱，在他們學(xué)?？梢砸姷剿蓄愋偷钠胀ㄈ恕⒁材芤姷剿蓄愋偷男⊥?到他們學(xué)校來學(xué)習(xí)就能成為世界上最厲害的警察。但是這所學(xué)校有個古怪，就是從不教授犯罪心理學(xué)。

象牙塔的教學(xué)方式是這樣的：將人群隨機分為十組，每組都是既有普通人又有小偷。學(xué)員可以觀察到前九組所有人，也知道誰是普通人誰是小偷。學(xué)員要做的是，根據(jù)自己從前九組中了解到的小偷特征，從第十組中找出小偷。比如學(xué)員從前九組觀察到小偷更喜歡在給孩子買尿布的時候也買啤酒，那么在第十組觀察到有人在買尿布時也買啤酒，就作為一個嫌疑條件。完成這個過程之后，學(xué)校再將人群打散重新分成十組，如此循環(huán)往復(fù)，之后學(xué)校進行測試。測試方式就是再次將人群隨機分為十組，看誰能最快最準(zhǔn)根據(jù)前九組的信息找出第十組的小偷。冠軍即象牙塔最棒警察，可以派到社會上抓小偷了。

一段時間后，問題來了：象牙塔最棒警察在象牙塔校內(nèi)總能迅速找到小偷，可一旦出了象牙塔，該警察就老犯錯抓、該抓不抓的錯誤。他抓小偷的表現(xiàn)，甚至比重來沒有來象牙塔學(xué)習(xí)的人還要差。

在這個故事里，象牙塔最棒警察就相當(dāng)于根據(jù)大數(shù)據(jù)的數(shù)據(jù)挖掘方法、機器學(xué)習(xí)過程之后挑選出來的最優(yōu)模型。小偷相當(dāng)于特定問題需要甄選出的對象，比如得流感的人、不干預(yù)就會自殺的人、賴賬的人。前九組的人就相當(dāng)于用于訓(xùn)練模型的訓(xùn)練數(shù)據(jù);第十組人則相當(dāng)于檢驗訓(xùn)練結(jié)果的檢驗數(shù)據(jù)。不教授犯罪心理學(xué)就意味著抓小偷并不需要理解小偷為什么會成為小偷，類似于在數(shù)據(jù)分析中只關(guān)心相關(guān)關(guān)系而不關(guān)注因果關(guān)系。訓(xùn)練最佳警察的過程，就類似于運用機器學(xué)習(xí)技術(shù)，采用訓(xùn)練數(shù)據(jù)來訓(xùn)練模型，然后采用檢驗數(shù)據(jù)來選擇模型，并將預(yù)測最好的模型作為最佳模型，用于未來的各類應(yīng)用中。

2/10 首頁上一頁 1 2 3 4 5 6 下一頁尾頁

大數(shù)據(jù)分析的光榮與陷阱——從谷歌流感趨勢談起