抽樣需要預(yù)設(shè)數(shù)據(jù)將要被如何使用,因此你可以設(shè)計(jì)哪些是合適的樣本。這樣做在論及全體樣本的時(shí)候是有用的,但當(dāng)你深入到小一些的團(tuán)體時(shí),這樣做就不是很有用,因?yàn)槟憧赡軟]有足夠的數(shù)據(jù)來有效地做到這一點(diǎn)。還有,如果你對(duì)自己想從數(shù)據(jù)中得到的內(nèi)情改變了想法,你通常必須抽取新的樣本。當(dāng)你可以收集并存儲(chǔ)所有數(shù)據(jù)而不是一個(gè)樣本時(shí),所有這些問題都不復(fù)存在了,也就是說,樣本量n=全部的時(shí)候。
下一個(gè)變化是,要求人們接受零亂的而非純凈、精心整理過的數(shù)據(jù)?!霸谠絹碓蕉嗟那闆r下,稍失準(zhǔn)確是可以接受的,因?yàn)槭褂觅|(zhì)量參差的海量數(shù)據(jù)帶來的好處超越了使用少量精準(zhǔn)數(shù)據(jù)的成本……當(dāng)周遭沒有那么多數(shù)據(jù)的時(shí)候,研究人員必須保證他們費(fèi)勁收集的數(shù)字是盡可能準(zhǔn)確的。發(fā)掘海量數(shù)據(jù)意味著我們現(xiàn)在可以允許一點(diǎn)不準(zhǔn)確的數(shù)據(jù)無意中流入(只要數(shù)據(jù)集不是完完全全不正確的),換來的是巨大體量的數(shù)據(jù)帶給我們的視野。”
我發(fā)現(xiàn)最后一個(gè)重大變化,即從因果關(guān)系到相關(guān)性關(guān)系的變化,這特別讓人感興趣。正如作者所說:“大數(shù)據(jù)幫助回答是什么而不是為什么的問題,這往往就足夠了?!被蛘哒f,至少在經(jīng)驗(yàn)科學(xué)的早期階段這就足夠了。在這一階段,我們尋求的是能夠幫助我們預(yù)測(cè)未來事件和行為的方式,沒有必要擁有可以解釋事情為何發(fā)生的良好模式或理論。那些模式和理論今后會(huì)有的,不過有時(shí)它們根本不會(huì)出現(xiàn)。
比如,在麻省理工學(xué)院首席信息長研討會(huì)上,麻省理工學(xué)院教授季米特里斯?波特西瑪斯(Dimitris Bertsimas)參加了布林約爾夫松教授主持的“大數(shù)據(jù)的現(xiàn)實(shí)”小組討論。他談到了自己最近的研究:分析數(shù)十年的癌癥治療數(shù)據(jù),希望能夠以合理的成本提高癌癥病人的壽命和生活質(zhì)量。他和他的三個(gè)學(xué)生一道開發(fā)了模型,利用病人的個(gè)人資料數(shù)據(jù)和他們接受的化療藥物及劑量方面的數(shù)據(jù)預(yù)測(cè)生存和死亡的幾率。他們的論文《用分析法設(shè)計(jì)癌癥臨床試驗(yàn)》(An Analytics Approach to Designing Clinical Trials for Cancer)表明,根據(jù)過去的數(shù)據(jù)預(yù)測(cè)未來臨床試驗(yàn)的結(jié)果是有可能的,哪怕要預(yù)測(cè)的確切的藥物組合以前從來沒有在臨床試驗(yàn)中測(cè)試過,哪怕這個(gè)特定藥物組合為何有效的原因不為人所知。
“使用大數(shù)據(jù)有時(shí)意味著放棄追究為什么,以換取弄清事物是什么……這表示人們開始放棄了解世界如何運(yùn)作背后的深層原因,轉(zhuǎn)而僅僅去了解現(xiàn)象之間的聯(lián)系并利用這種聯(lián)系來完成任務(wù),”庫克耶和邁爾-舍恩伯格寫道,“當(dāng)然,弄清事物背后的原因是可取的。問題是原因經(jīng)常很難查明,很多時(shí)候我們認(rèn)為自己找到了原因,其實(shí)那不過是一種沾沾自喜的錯(cuò)覺。行為經(jīng)濟(jì)學(xué)已經(jīng)證實(shí),人類在原因不存在的地方也習(xí)慣于看到原因。因此我們需要特別警惕,防止我們的認(rèn)知偏見迷惑我們;有時(shí),我們只需要讓數(shù)據(jù)說話?!?br />
“在一個(gè)數(shù)據(jù)越來越多地決定判斷的世界里,對(duì)于人、直覺和違背事實(shí)的行為來講還會(huì)留有什么用途呢?”作者在結(jié)尾部分問道,“如果人人都訴諸于數(shù)據(jù),利用大數(shù)據(jù)工具,能夠成為區(qū)分焦點(diǎn)的就是不可預(yù)見的東西:本能的人為因素、冒險(xiǎn)、事故、甚至錯(cuò)誤。如果真是這樣,那么會(huì)有一種特殊的需要人為來開辟一塊地方:為直覺、常識(shí)、和意外發(fā)現(xiàn)的本事留出空間,確保它們不會(huì)被數(shù)據(jù)和千篇一律的答案擠出去……不管大數(shù)據(jù)的威力多么令人眼花繚亂,它誘人的光芒絕對(duì)不能讓我們對(duì)其固有的缺點(diǎn)視而不見。我們必須在既感受到大數(shù)據(jù)的威力又了解它的局限性之后才去采用這種技術(shù)?!?br />
作者:王文科(Irving Wladawsky-Berger)是前IBM公司負(fù)責(zé)技術(shù)策略和創(chuàng)新的副總裁,現(xiàn)為花旗集團(tuán)(Citigroup)的戰(zhàn)略顧問,也是《CIO雜志》(CIO Journal)的定期撰稿人。
來源:華爾街日?qǐng)?bào)
更多詳細(xì)信息,請(qǐng)您微信關(guān)注“計(jì)算網(wǎng)”公眾號(hào):