文/劉江
Random forests, naïve Bayesian estimators, RESTful services, gossip
protocols, eventual consistency, data sharding, anti-entropy, Byzantine
quorum, erasure coding, vector clocks …
你能猜出上面這一串密集的術(shù)語出自哪里嗎?
這是Amazon CEO Bezos 2010 年給股東的信頭一句。“走進(jìn)某個(gè)Amazon的會(huì)議室,你可能會(huì)突然以為自己誤入了一個(gè)計(jì)算機(jī)科學(xué)講座。”這封信后面幾乎全部都在談技術(shù),其中的重點(diǎn)就是大數(shù)據(jù)的處理。數(shù)據(jù)已經(jīng)成為新時(shí)代的石油,大數(shù)據(jù)的處理能力,的確已經(jīng)成為企業(yè)的競爭焦點(diǎn)。
我在2011年8月卷首語中,曾整理過大數(shù)據(jù)(Big Data)概念興起的脈絡(luò),最早是2005 年Tim O’Reilly 提出Web 2.0 概念的那篇博客。然而,在撰寫本期“名人堂”Jim Gray 文章時(shí),我閱讀了大量資料,發(fā)現(xiàn)事情遠(yuǎn)不是那么簡單。
早在1940 年代,控制論之父Wiener 已開始討論這樣一種機(jī)器,它能收集足夠多的各種類型信息,生產(chǎn)的、市場的、人的心理的,然后據(jù)此確定事情發(fā)生的概率。而那時(shí),計(jì)算機(jī)都還沒有誕生呢。
Jim Gray 回憶,他1969 年之前在伯克利攻讀博士時(shí),就已與一些同事將計(jì)算機(jī)科學(xué)應(yīng)用于社會(huì)問題研究。這也是他后來一直研究的主題之一。他在微軟研究院領(lǐng)導(dǎo)的項(xiàng)目名就叫eScience,很多工作是將微軟的各種計(jì)算資源開放給其他學(xué)科的學(xué)術(shù)界同行解決那些數(shù)據(jù)密集型的課題,取得了豐碩的成果。
2007 年他掛帆仙去之前幾個(gè)月,在美國國家科學(xué)研究委員會(huì)發(fā)表演講,指出科學(xué)研究已經(jīng)在幾千年前的憑經(jīng)驗(yàn)、幾百年前的靠理論模型、幾十年前的計(jì)算仿真之后,進(jìn)入了第四階段——數(shù)據(jù)探索。在此階段,科學(xué)家依靠各種儀器、傳感器獲取數(shù)據(jù),或者通過仿真生成數(shù)據(jù),然后用軟件進(jìn)行處理,將得到的信息/知識存儲在計(jì)算機(jī)中,再由科學(xué)家借助各種統(tǒng)計(jì)和數(shù)據(jù)工具進(jìn)行分析和可視化。這基本是大數(shù)據(jù)處理的經(jīng)典義。
這幾天我在翻看2007 年的暢銷書《Super Crunchers》一本對數(shù)據(jù)分析重要性極好的通俗宣傳手冊。書中豐富的例子會(huì)讓你了解到大數(shù)據(jù)的無所不在:預(yù)測紅酒品質(zhì)、選棒球隊(duì)員、取書名、法官斷案、找對象……
大數(shù)據(jù)分析往往比專家或者你自己更靠譜。印象最深的案例是循證醫(yī)學(xué),說白了就是傳統(tǒng)經(jīng)驗(yàn)積累下來的醫(yī)療診斷和治療中的很多做法和程序,都沒有數(shù)據(jù)支撐,存在極大風(fēng)險(xiǎn),應(yīng)該用盡量多的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行論證。
在部分醫(yī)院實(shí)驗(yàn),一年多時(shí)間就挽救了十萬人的生命。
這也讓我想起年前英年早逝的張孝祥老師,他在去世之前所做的常規(guī)體檢根本沒有查出問題,感覺不適時(shí)自己沒有重視,錯(cuò)過了及時(shí)的治療。如果我們能夠開發(fā)出相應(yīng)技術(shù),用微小的傳感器監(jiān)測每個(gè)人重要的器官,不斷收集數(shù)據(jù),及時(shí)進(jìn)行分析,對危險(xiǎn)提前預(yù)警,這種悲劇應(yīng)該是可以避免的。
Jim Gray 曾預(yù)測,到2047 年有關(guān)現(xiàn)實(shí)事物、人、建筑、流程的所有信息都將上網(wǎng)。讓我們共同努力,盡早實(shí)現(xiàn)。