現(xiàn)在,就看Netflix真正用大數(shù)據(jù)算出的下一部自制劇是否會大紅大紫了。亦或僅僅是個(gè)牽強(qiáng)的附會。
Part 4:失效的法則
谷歌在2008年推出的流感趨勢系統(tǒng)監(jiān)測全美的網(wǎng)絡(luò)搜索,尋找與流感相關(guān)的詞語,比如“咳嗽”和“發(fā)燒”等。它利用這些搜索來提前9個(gè)星期預(yù)測可能與流感相關(guān)的就醫(yī)量,這個(gè)案例被當(dāng)成大數(shù)據(jù)應(yīng)用的一個(gè)經(jīng)典案例。
但是,沒有人關(guān)注這個(gè)事情的然后,真相是這樣的,在過去3年,該系統(tǒng)一直高估與流感相關(guān)的就醫(yī)量,在這類數(shù)據(jù)最有用的流感季節(jié)高峰期尤其預(yù)測不準(zhǔn)確。在2012/2013流感季節(jié),它預(yù)測的就醫(yī)量是美國疾控中心(CDC)最終記錄結(jié)果的兩倍;在2011/2012流感季節(jié),它高估了逾50%,原因可能是媒體對于流感流行的報(bào)道會增加與流感相關(guān)的詞匯的搜索次數(shù),進(jìn)而影響Google的預(yù)測。
很多案例剛開始看起來很驚艷,但看久了,不僅僅會審美疲勞,美人自己也會遲暮,總要變化的看數(shù)據(jù),未來大數(shù)據(jù)的例子也需要與時(shí)俱進(jìn)。
Part 5:有偏的樣本
在1936年美國總統(tǒng)選舉前,一份頗有名氣的雜志(Literary Digest)的工作人員做了一次民意測驗(yàn)。調(diào)查蘭頓(A.Landon)(當(dāng)時(shí)任堪薩斯州州長)和羅斯福(F.D.Roosevelt)(當(dāng)時(shí)總統(tǒng))中誰將當(dāng)選下一屆總統(tǒng),為了了解公眾意向,調(diào)查者通過電話簿和車輛登記簿上的名單給一大批人發(fā)了調(diào)查表(注意在1936年電話和汽車只有少數(shù)富人擁有)。通過分析收回的調(diào)查表,顯示蘭頓非常受歡迎,于是此雜志預(yù)測蘭頓將在選舉中獲勝。實(shí)際選舉結(jié)果正好相反,最后羅斯福選舉獲勝。
為什么會產(chǎn)生這種預(yù)測失誤呢?原因在于《文摘》所選的樣本限定在了擁有電話薄和車輛登記簿的一群人身上,但是在那個(gè)年代,有能力購買電話和訂閱雜志的人并不能真正代表選民.至少在經(jīng)濟(jì)上,他們是極特殊的,是有偏差的,你們是要負(fù)責(zé)任的。又比如今年春節(jié)爆料的男人比女人更孝順的言語,都是有偏樣本的典型。
幾年前,一個(gè)叫做可尼斯博士(Dr.Cornish)的牙粉上市了,并宣傳“在治療臼齒方面獲得了極大的成功”,因?yàn)樵撗婪壑泻心蛩?,而?jīng)過實(shí)驗(yàn)室的證明,尿素對于治療臼齒有極大功效。然而,值得一提的是,實(shí)驗(yàn)室的結(jié)論完全先入為主而且僅僅建立在6個(gè)案例之上,沒有披露的數(shù)據(jù)其實(shí)很可能是經(jīng)過人為操縱的數(shù)據(jù),當(dāng)數(shù)據(jù)的樣本量越小最終的結(jié)果就越多變,然后在眾多的結(jié)果中選擇有利于自己的一種,就可以誘導(dǎo)公眾進(jìn)行我們所期待的行動(dòng)。
統(tǒng)計(jì)抽樣,總要隨機(jī)化和足夠的數(shù)量,這是基本的原則,任何發(fā)布數(shù)據(jù)的單位,總要披露統(tǒng)計(jì)的方式,我們有權(quán)利知道,否則,就值得懷疑。
Part 6:欺人的算法
最有欺騙性的的例子莫過于統(tǒng)計(jì)學(xué)中著名的辛普森悖論,看看來自斯坦福講義里的一個(gè)簡單例子(http://plato.stanford.edu/entries/paradox-simpson/#Causation)。某大學(xué)歷史系和地理系招生,共有13男13女報(bào)名。
Men Women
History 1/5 < 2/8
Geography 6/8 < 4/5
University 7/13 > 6/13
歷史系5男報(bào)名錄取1男,8女報(bào)名錄取2女。地理系8男報(bào)名錄取6男,5女報(bào)名錄取4女。分析數(shù)據(jù),會發(fā)現(xiàn)以下問題:
(1) 整個(gè)學(xué)校統(tǒng)計(jì),男生錄取率(7/13)高于女生錄取率(6/13)
(2) 但是,按系統(tǒng)計(jì),每個(gè)系的女生的錄取率卻都高于男生錄取率。歷史系女生的錄取率(2/8)大于男生錄取率(1/5)。地理系女生錄取率(4/5)也高于男生錄取率(6/8)。
你有沒看出來問題?
英國政府 2015 年開始同意讓父親和母親共休產(chǎn)假。但一年后的統(tǒng)計(jì)數(shù)據(jù)卻顯示,只有 1% 的父親選擇了休假。BBC、《衛(wèi)報(bào)》等各大媒體報(bào)道之后引發(fā)強(qiáng)烈社會反響。真的是這樣嗎?原來,這個(gè) “1%” 的分母不是“有資格休假的父親”,而是“所有男性”。有人指出,如果這么算,即使當(dāng)年所有新生父親都選擇休假,調(diào)查得到的數(shù)字也只不過是 5%。
很多時(shí)候,讓一個(gè)數(shù)據(jù)變大變小很簡單,分母上口徑上動(dòng)點(diǎn)手腳,什么目標(biāo)都實(shí)現(xiàn)了。數(shù)字不會說謊,但說謊的人會想出辦法。
Part 7:畫圖的伎倆
在顯示趨勢時(shí),直線圖形非常有用。而對于趨勢,人們總是津津樂道于發(fā)現(xiàn)它、分析它,甚至預(yù)測它。下面,我們將用圖形來顯示國民收入怎樣在一年內(nèi)實(shí)現(xiàn)了10%的增長。