大數(shù)據(jù)時代,數(shù)據(jù)被稱為新時期的石油,但與石油又不同,其價值的體現(xiàn)很大程度依賴于人的解釋,雖然數(shù)據(jù)本身不會說謊,但這給數(shù)據(jù)說謊提供了操作空間,具備數(shù)據(jù)甄別能力對于你更真實的去理解數(shù)據(jù)大有好處。
對于大數(shù)據(jù)這么一個快速發(fā)展的新生事物,沒有誰可以說是真正的權(quán)威,具備批判精神有利于理論和應(yīng)用的百花齊放。
但你要戳穿它是不容易的,不如跟著筆者走一遭,看看你信了多少回?
Part 1:編造的謊言
這是一個關(guān)于零售帝國沃爾瑪?shù)墓适隆?在一次例行的數(shù)據(jù)分析之后, 研究人員突然發(fā)現(xiàn): 跟尿布一起搭配購買最多的商品,竟是啤酒!尿布和啤酒,聽起來風(fēng)馬牛不相及,但這是對歷史數(shù)據(jù)進(jìn)行挖掘的結(jié)果,反映的是數(shù)據(jù)層面的規(guī)律。這種關(guān)系令人費解,但經(jīng)過跟蹤調(diào)查,研究人員發(fā)現(xiàn),一些年輕的爸爸常到超市去購買嬰兒尿布,有30%~40%的新爸爸,會順便買點啤酒犒勞自己。隨后,沃爾瑪對啤酒和尿布進(jìn)行了捆綁銷售,不出意料,銷售量雙雙增加。這個故事雖經(jīng)典,但是讓你意想不到的是:案例是編造的,這個經(jīng)典的“啤酒和尿布” (Beer and Diapers)的案例,不僅是《大數(shù)據(jù)》類圖書的??停聦嵣?,它更是無數(shù)次流連于“數(shù)據(jù)挖掘”之類的書籍中,特別是用來解釋“關(guān)聯(lián)規(guī)則(Association Rule)”的概念,更是“居家旅行,必備之良藥(周星馳語)”。實際上,它是Teradata公司一位經(jīng)理編出來的“故事”,目的是讓數(shù)據(jù)分析看起來更有力,更有趣,而在歷史上從沒有發(fā)生過。
數(shù)據(jù)挖掘史上有很多著名的經(jīng)典案例,但遺憾的是,歷史有時候賦予太多的光圈和暈輪,但還原歷史的真相,是每一個人的責(zé)任,不論那真相是什么,但這個并不影響數(shù)據(jù)挖掘帶來的成就,歷史車輪的推動,真相和謊言總是伴隨。
Part 2:困惑的專家
“專家”曾經(jīng)是一個讓人豎然起敬的頭銜,然而現(xiàn)在是一個專家充斥的年代,你打開電視,草草掃過幾個頻道,就能遇到形形式式的專家,大到國際民生、經(jīng)濟形勢,小到股票漲落、養(yǎng)生保健的各個領(lǐng)域生產(chǎn)著形形式式的意見,各種時事評論類的新聞上,經(jīng)常會引用專家的言論,“據(jù)專家預(yù)測……”,這些專家看起來對于預(yù)測很自信,但他們真得能夠有效預(yù)測嗎?伯克利大學(xué)的心理學(xué)家TetLock曾經(jīng)做過一個長期跟蹤研究。他選擇了284位專家,讓這些專家預(yù)測是否將要發(fā)生某些政治或經(jīng)濟事件,例如,南非會不會以非暴力方式結(jié)束種族隔離?,在約20年中,TetLock收集了這些專家的82361個預(yù)測,這些問題大多以三選一的方式出現(xiàn),然而,專家預(yù)測和事態(tài)實際發(fā)展的對比結(jié)果出人預(yù)料,哪怕讓三歲嬰兒在紅黃藍(lán)三個球中隨機挑一個都比這些專家的預(yù)測更好。當(dāng)然,專家自己并不承認(rèn)他們的預(yù)測能力不佳,當(dāng)預(yù)測正確時,他們將之歸功于自己的洞察和專業(yè)能力,如果錯誤,要么怪形式超出常規(guī),要么消失或根本不承認(rèn)自己錯了。
很多看似專家主導(dǎo)的專業(yè)領(lǐng)域,專家表現(xiàn)也差強人意,Olivier等人曾經(jīng)對金融分析師在1987至2004年的預(yù)測進(jìn)行研究,在20年中,分析師對于每股盈利這個重要經(jīng)濟指標(biāo)預(yù)測能力很差,甚至不如簡單的把上一年每股盈利作為下一年預(yù)測效果好。從這個角度看,這些分析師什么也沒做。
雖然這些例子有點久遠(yuǎn),但法則并未失效,當(dāng)你碰到滿口數(shù)據(jù)分析預(yù)測的專家時,請以批判的精神去看這些專家和數(shù)據(jù),在大量的領(lǐng)域,專家已經(jīng)被用爛了,無法證偽的任何事實都值得懷疑。
Part 3:牽強的附會
談影視大數(shù)據(jù),怎么都繞不開《紙牌屋》。“Netflix通過分析3000萬北美用戶觀看視頻的行為數(shù)據(jù),發(fā)現(xiàn)凱文·史派西、大衛(wèi)·芬奇和‘英劇《紙牌屋》’’3個關(guān)鍵詞的受眾存在交集,由此預(yù)測將三種元素結(jié)合在一起的片子將會大火特火。”這段模凌兩可的描述真的太誘人了,簡直像要發(fā)起一場影視革命!但回到原點,美劇《紙牌屋》成功的原因,真的就是“1+1+1”這么簡單嗎?數(shù)據(jù)倘若真的這么NB,那為什么Netflix的第一部自制劇《莉莉海默》和《紙牌屋》之后的自制劇《鐵杉樹叢》并沒有復(fù)制輝煌呢?這不禁令人生疑:如果大數(shù)據(jù)應(yīng)用如此可行,Netflix為何情有獨鐘《紙牌屋》。
真相被淹沒在有關(guān)《紙牌屋》和大數(shù)據(jù)關(guān)系的海量報道中。早在去年7月,美劇《紙牌屋》改編方、美國獨立制片公司MRC的聯(lián)合CEO莫迪·維克茨克(Modi Wiczyk)就公開表示,此劇的誕生源自公司一名實習(xí)生的推薦。你沒看錯,是至今姓甚名誰都不知道的實習(xí)生,和大數(shù)據(jù)沒有半毛錢關(guān)系。事實上,《紙牌屋》的誕生,決定性因素不是“大數(shù)據(jù)”,而是影視圈里永恒的關(guān)鍵詞——“資金”和“人脈”,這其中,數(shù)據(jù)最多只是一個指南針,甚至只是一個手電筒。可以說,《紙牌屋》的成功宣傳了大數(shù)據(jù),而不是大數(shù)據(jù)造就了《紙牌屋》,大數(shù)據(jù)只是Netflix在宣傳《紙牌屋》的過程中使用的噱頭。