這是一個(gè)人人都言“大數(shù)據(jù)”的時(shí)代,然“大數(shù)據(jù)”存在于何處?影響于何處?難免,普通大眾被席卷而來的“大數(shù)據(jù)”之潮迷亂了眼睛,攪亂了思緒。正是在這樣的時(shí)刻,筆者認(rèn)為尤為重要的是保有敬畏之心與清醒的思維,認(rèn)識(shí)到“大數(shù)據(jù)”的局限性。
滲透時(shí)刻,無處不在的大數(shù)據(jù)
大數(shù)據(jù)可能是時(shí)下最吸引眼球的話題之一。從通過鮮花與安全套銷量比分析不同城市的浪漫指數(shù)到發(fā)現(xiàn)深處內(nèi)陸的新疆人民反而比基尼銷量第一,從為節(jié)能減排做貢獻(xiàn)到德國國家隊(duì)利用大數(shù)據(jù)技術(shù)搜集球員信息征戰(zhàn)世界杯到根據(jù)敵方機(jī)場起降信號(hào),一分鐘內(nèi)分析出起降批次,戰(zhàn)斗機(jī)型號(hào)等細(xì)節(jié),再到獲得獲第86屆奧斯卡金像獎(jiǎng)最佳原創(chuàng)劇本獎(jiǎng)的《她》,劇本內(nèi)主角和人工智能系統(tǒng)之間感情逐漸加深直到愛上彼此,大數(shù)據(jù)給人帶來無盡遐想,帶來無限精彩的可能。
就像馬云所說的那樣,人類已經(jīng)從IT時(shí)代走向DT時(shí)代。阿里巴巴集團(tuán)數(shù)據(jù)委員會(huì)長車品覺在他的著作《決戰(zhàn)大數(shù)據(jù)》里面也強(qiáng)調(diào)了兩個(gè)重要觀點(diǎn):其一,大數(shù)據(jù)徹底消除了“樣本偏差”(sample bias)。“樣本跟大數(shù)據(jù)不同。大數(shù)據(jù)相信全量數(shù)據(jù),而非樣本;是分析得出,而不是抽樣獲得”;其二,大數(shù)據(jù)時(shí)代的相關(guān)性分析可以創(chuàng)造以前無法想象的場景。極端情況下,線上數(shù)據(jù)的積累,可以形成個(gè)人的”線上人格”,影響乃至控制人的線下行為。
傲慢是罪,保持一顆敬畏之心
大數(shù)據(jù)前景如此美好,竟讓我無言以對(duì)。然而,傲慢是罪。“智慧果”讓人類擁有了智慧,但同時(shí)也讓離開伊甸園的人類從此無法擺脫傲慢的原罪。從“通天塔”到在“地上建立天國”,失去敬畏之心的人類往往給自己造成巨大傷害。大數(shù)據(jù)時(shí)代,同樣應(yīng)該保持一顆敬畏之心,認(rèn)識(shí)到以下三點(diǎn)。
一、樣本偏差始終存在,大數(shù)據(jù)沒有超越統(tǒng)計(jì)學(xué)
什么是樣本偏差?這方面最精彩的例子來自二戰(zhàn)。其簡化版本是,英國皇家空軍苦惱于德軍兇猛的防空炮火,想通過加強(qiáng)飛機(jī)裝甲降低戰(zhàn)斗機(jī)損耗率。但受制于飛機(jī)載重,只能在部分部位加強(qiáng)裝甲。為此,他們求助于一位統(tǒng)計(jì)學(xué)家。在仔細(xì)觀察成功返回機(jī)場飛機(jī)上的著彈痕跡后,專家給出了出人意料的結(jié)論:在沒有著彈痕跡的部位加裝裝甲。面對(duì)質(zhì)疑,統(tǒng)計(jì)學(xué)家只回答了一句話。“那些部位著彈的飛機(jī)都?jí)嬄淞?rdquo;??梢姡y(tǒng)計(jì)學(xué)永遠(yuǎn)是個(gè)手藝活,沒有兩把刷子是要害死人的。
本質(zhì)上來說,統(tǒng)計(jì)學(xué)就是用部分推測整體,用過去預(yù)測未來的理論體系。其最大的弱點(diǎn)在于部分推測整體時(shí),樣本偏差會(huì)讓結(jié)論失效。那么,在大數(shù)據(jù)時(shí)代,是否真的來到了天堂,沒有樣本偏差的困擾了?答案顯然是否定的。從現(xiàn)象上來看,即使在大數(shù)據(jù)時(shí)代,數(shù)據(jù)與應(yīng)用場景也會(huì)有嚴(yán)重割裂。拿情人節(jié)鮮花和安全套比率這個(gè)例子來說,基于“你懂得”的原因,很多安全套消費(fèi)發(fā)生在線下,線上無法獲取該數(shù)據(jù)。因?yàn)榧夹g(shù)手段或商業(yè)模式本身的限制,線上系統(tǒng)能采集到的數(shù)據(jù)只是完整場景中的一部分,不是全部數(shù)據(jù)。再比如新疆人民比基尼銷量第一的例子。數(shù)據(jù)分析人員如果不能意識(shí)到真實(shí)場景中,新疆的比基尼銷售量主要集中線上(線下傳統(tǒng)渠道銷量很少或者基本沒有?)但其它省份比基尼銷售主要在線下(線上銷量占比8%~10%)就會(huì)得出錯(cuò)誤的結(jié)論。同時(shí),在新疆,淘寶天貓的網(wǎng)上銷量基本代表了真實(shí)的網(wǎng)上銷量。但在北上廣這些一線城市,京東的線上銷量已經(jīng)和淘寶天貓相當(dāng),只考慮阿里系的數(shù)據(jù),會(huì)嚴(yán)重低估真實(shí)銷量。
從理論上分析,數(shù)據(jù)與應(yīng)用場景的割裂本質(zhì)上就是樣本偏差。因?yàn)榧夹g(shù)或者利益的原因,大數(shù)據(jù)時(shí)代搜集的數(shù)據(jù)也不能完全覆蓋應(yīng)用場景的各個(gè)環(huán)節(jié),所取得的數(shù)據(jù)仍然是部分,不是全部。最后,從哲學(xué)層面來說,即使以后技術(shù)有了長足的進(jìn)步,解決數(shù)據(jù)與場景的割裂問題,同時(shí)也有了完美的商業(yè)模式可以讓競爭對(duì)手樂意互相分享數(shù)據(jù),樣本偏差仍然會(huì)存在。其核心在于,人類雖然有能力認(rèn)識(shí)客觀世界的所有規(guī)律,但客觀世界本身并不是靜止的,而是在不斷運(yùn)動(dòng)當(dāng)中。過去的數(shù)據(jù),一定不能體現(xiàn)客觀世界未來的發(fā)展規(guī)律。“刻舟求劍”的理念不符合實(shí)際。從這個(gè)角度上來說,“黑天鵝”事件的本質(zhì)就是樣本偏差。技術(shù)再先進(jìn),商業(yè)模式再精妙,也不能解決這個(gè)問題。所以說,即使在大數(shù)據(jù)時(shí)代,人們還是應(yīng)該有敬畏之心,在這個(gè)時(shí)代,科技確實(shí)游走到了宗教邊緣。