前言:最近一項(xiàng)研究發(fā)現(xiàn)人們?cè)谀樧V網(wǎng)上點(diǎn)贊的喜好能強(qiáng)烈反應(yīng)一些個(gè)人的性格特征,如性取向和智商。但是把這些相關(guān)性當(dāng)作是任何東西的證據(jù),這一點(diǎn)疑慮多多。
大家最近應(yīng)該都聽(tīng)說(shuō)過(guò)“一項(xiàng)研究表明在臉譜網(wǎng)上給炸薯?xiàng)l點(diǎn)贊很可能意味著這人擁有高智商”吧,一些雜志如《連線》就此發(fā)表紛紛相應(yīng)評(píng)論文章;定量分析公司聯(lián)合創(chuàng)始人與CTO Sean Gourley(譯者注:原文為CEO,但Quid官網(wǎng)注明職務(wù)為CTO,此處引用官網(wǎng)職務(wù))在上周舉辦的結(jié)構(gòu)數(shù)據(jù)大會(huì)上演講時(shí)也引用了上述分析結(jié)果,歐盟議會(huì)團(tuán)體甚至引用該研究結(jié)果作為禁止網(wǎng)絡(luò)公司發(fā)掘數(shù)據(jù)的又一證據(jù)。
然而,如果大家如我這般,聽(tīng)到任何人重復(fù)強(qiáng)調(diào)炸薯?xiàng)l數(shù)據(jù)很可能是事實(shí)時(shí),背脊一陣?yán)漕?,那不是說(shuō)分析結(jié)果不是事實(shí)--他的確很有可能是真的--但在缺乏更多背景情境下,那只是一組無(wú)用的信息而已。
就是這樣,古老的相關(guān)性爭(zhēng)論與因果關(guān)系爭(zhēng)論再一次成為爭(zhēng)論的前沿焦點(diǎn)。在整個(gè)大數(shù)據(jù)世界,這很可能是最大的謬論,無(wú)論你怎么觀察研究這個(gè)結(jié)果。不對(duì),從大數(shù)據(jù)中獲取價(jià)值總是不需要更多地信任相關(guān)性而不是因果聯(lián)系。也不對(duì),依賴相關(guān)性也不是固有的某種道德上或科學(xué)上的可疑的做法。
確實(shí),依賴相關(guān)性或者堅(jiān)持尋找因果聯(lián)系的選擇很可能取決于你要干些什么。
當(dāng)我們不處于危急關(guān)頭時(shí),也就沒(méi)有關(guān)聯(lián)性了
誠(chéng)實(shí)點(diǎn)吧:如果我只關(guān)心提高點(diǎn)擊率,銷售更多產(chǎn)品或預(yù)測(cè)大家想看的電腦,關(guān)聯(lián)性可能會(huì)有所幫助。我確實(shí)不關(guān)心為什么,例如,Mac用戶在網(wǎng)上旅游公司Orbitz預(yù)定了更昂貴的房間--我只關(guān)心他們做了什么。
你瀏覽我的網(wǎng)頁(yè),我的系統(tǒng)顯示你使用的是Mac電腦(或者你喜歡炸薯?xiàng)l,或任何其他與你相關(guān)聯(lián)的屬性),這表明了你對(duì)系統(tǒng)認(rèn)為你想看的東西表示滿足。這不是個(gè)完美的手段,但可能是個(gè)截然不同的事物,比之前那種僅僅向所有人提供完全相同的內(nèi)容的老式方法效果好多了。
你不能區(qū)分--或者下定論--于相關(guān)性
但如果你嘗試用大數(shù)據(jù)來(lái)做一個(gè)有意義的區(qū)分,或者做出一個(gè)決定,對(duì)現(xiàn)實(shí)世界結(jié)果產(chǎn)生巨大影響,僅僅只有相關(guān)性很可能完全沒(méi)法滿足你的要求,這正是專欄作者耶夫根尼·莫洛佐夫(Evgeny Morozov)最近在《紐約時(shí)報(bào)》專欄中就犯罪問(wèn)題提出的警示,這正是Gourley在談到數(shù)據(jù)科學(xué)與數(shù)據(jù)智力的比較中所思考的,這也正是為什么當(dāng)前圍繞機(jī)器學(xué)習(xí)大多數(shù)時(shí)候總是包含人類外觀的爭(zhēng)論的原因。
沒(méi)有單獨(dú)對(duì)相關(guān)性做出相應(yīng)行為,很多時(shí)候是因?yàn)榭紤]到隱私政策和公民權(quán)利、憲法權(quán)利及人權(quán)等。你不能分析某人并就此逮捕他,舉例來(lái)說(shuō),就因?yàn)樗麄兊狞c(diǎn)贊信息表明他們有可能(犯罪)。或許你也不應(yīng)當(dāng)僅僅以相關(guān)性為基礎(chǔ),就針對(duì)人們的財(cái)務(wù)、健康或總體狀況做出決定。
見(jiàn)鬼,我甚至不為廣告服務(wù),挖掘用戶的個(gè)人信息如健康問(wèn)題、性取向或者智商等,我也沒(méi)有特別強(qiáng)烈的理由來(lái)相信我是正確的(并對(duì)服務(wù)這些廣告表示同意)臉譜網(wǎng)這次關(guān)于炸薯?xiàng)l的研究充斥著相關(guān)性,這種相關(guān)性可能會(huì)成為潛在的隱患。以下圖表是我們能看到的部分情況。
中云網(wǎng) 配圖 (圖表來(lái)源:《美國(guó)國(guó)家科學(xué)院院刊》,PNAS)
但上述所有情況下,偶爾,對(duì)錯(cuò)誤分析某人的恐懼--結(jié)果被起訴--很多時(shí)候可能會(huì)壓倒你想做些好事的愿望。我的同事Om Malik著作的《數(shù)據(jù)進(jìn)化論》最近的表現(xiàn)超出了同行的評(píng)價(jià)與社交媒體的排名,也不應(yīng)當(dāng)輕松扮演上帝(或進(jìn)化改變的催化劑,以繼續(xù)達(dá)爾文的比喻)的角色。
但是有時(shí)候,由于你確實(shí)想去解決某一問(wèn)題或者可能想創(chuàng)建一項(xiàng)偉大的產(chǎn)品,那么相關(guān)性就遠(yuǎn)遠(yuǎn)不夠。正如Gourley在結(jié)構(gòu):數(shù)據(jù)中解釋的那樣,即便使用相關(guān)性數(shù)據(jù)來(lái)預(yù)測(cè)某一特定地方如伊拉克的暴徒攻擊相對(duì)簡(jiǎn)單,但預(yù)測(cè)攻擊事件發(fā)生的可能性依然沒(méi)法阻擋他們的發(fā)生,阻止事件的發(fā)生需要確實(shí)掌握和解決攻擊事件的根本原因。
類似的情況也適用于阻止疾病的蔓延、指出為什么節(jié)目制作者在某些季度犯了更多錯(cuò)誤、阻止槍械犯罪,或者僅僅利用對(duì)炸薯?xiàng)l或者酒店房間的預(yù)訂者的了解,來(lái)創(chuàng)建新產(chǎn)品。通過(guò)對(duì)這些產(chǎn)品點(diǎn)贊,來(lái)接觸到產(chǎn)品創(chuàng)建的更深層理由。你能戰(zhàn)勝病狀,因此這么說(shuō),你可以治愈疾病。
你可以隨意嘗試向下一個(gè)你看到吃著炸薯?xiàng)l的人推銷陀思妥耶夫斯基的紀(jì)錄片,但別指望他照顧(你生意)。炸薯?xiàng)l有可能與智商間存在某種強(qiáng)烈的相關(guān)性聯(lián)系;當(dāng)然,同樣有可能高智商人群--完全巧合地--往往住在快捷食品特許經(jīng)營(yíng)餐廳Arby’s的步行范圍內(nèi),但是沒(méi)人問(wèn)這樣的問(wèn)題。
本文作者Derrick Harris,系GigaOM知名分析師
本文來(lái)源:
http://gigaom.com/2013/03/25/liking-curly-fries-might-not-mean-youre-smart-when-correlation-isnt-enough/