當(dāng)然,百度只公布了一點(diǎn)點(diǎn)大家感興趣的結(jié)果。它完全可以從這些數(shù)據(jù)中得到更多有價值的統(tǒng)計(jì)結(jié)果。比如,它很容易得到不同年齡人、性別和文化背景(這些很容易挖掘出來)的飲食習(xí)慣,不同生活習(xí)慣的人(比如正常作息的、夜貓子們、經(jīng)常出差的或者不愛運(yùn)動的等等)的飲食習(xí)慣等等。如果百度的數(shù)據(jù)收集的時間跨度足夠長,它還可以看出不同地區(qū)人飲食習(xí)慣的變化,尤其是在不同經(jīng)濟(jì)發(fā)展階段飲食習(xí)慣的改變。而這些看似很簡單的問題,比如飲食習(xí)慣的變化,沒有百度知道的大數(shù)據(jù),還真難得到。這就是大數(shù)據(jù)多維度的威力。
大數(shù)據(jù)的第二個特點(diǎn)在于它的完備性。為了說明這一點(diǎn),讓我們再來看一個真實(shí)的案例。從1932年開始,蓋洛普一直在對美國總統(tǒng)選舉進(jìn)行預(yù)測,幾十年來它也在不斷地改進(jìn)采樣的方法,力求使得統(tǒng)計(jì)準(zhǔn)確,但是在過去的幾十年里,它對美國大選結(jié)果的預(yù)測可以講是大局(全國)尚準(zhǔn)確,但是細(xì)節(jié)(每一個州)常常出錯。因?yàn)樵俸玫牟蓸臃椒?,也有考慮不周全之處。
但是到了2012年總統(tǒng)選舉時,這種“永遠(yuǎn)預(yù)測不準(zhǔn)”的情況得到了改變。一位名不見經(jīng)傳的統(tǒng)計(jì)學(xué)家Nate Silver通過對互聯(lián)網(wǎng)網(wǎng)上能夠取得的各種大量的數(shù)據(jù)(包括社交網(wǎng)絡(luò)上用戶發(fā)表的信息、新聞信息和其它網(wǎng)絡(luò)信息),進(jìn)行大數(shù)據(jù)分析,準(zhǔn)確地預(yù)測了全部50個州的選舉結(jié)果,而在歷史上,蓋洛普從來沒有做的這一點(diǎn)。當(dāng)然,有人可能會問,這個結(jié)果是否是蒙的?這個可能性或許存在,但是只有一千萬億分之一,因此可以認(rèn)為這是大數(shù)據(jù)分析的結(jié)果。在這個例子中,Silver并沒有什么好的采樣方法,只是收集的數(shù)據(jù)很完備。大數(shù)據(jù)的完備性,不僅有用,甚至有點(diǎn)可怕。

圖4. Nate Silver對2012年美國大選的預(yù)測(左)和實(shí)際結(jié)果(右)的對比(紅色的地方表示共和黨獲勝的州,藍(lán)色的表示民主黨獲勝的州)
數(shù)據(jù)的完備性的作用遠(yuǎn)比準(zhǔn)確預(yù)測一個總統(tǒng)選舉大得多,Google無人駕駛汽車便是一個很好的例子。首先,無人駕駛汽車可以算是一個機(jī)器人,這點(diǎn)應(yīng)該沒有疑問,因?yàn)樗芟袢艘粯訉Ω鞣N隨機(jī)突發(fā)性事件快速地做出判斷。在這個領(lǐng)域Google只花了六年時間就做到了全世界學(xué)術(shù)界幾十年沒有做到的事情。在2004年,經(jīng)濟(jì)學(xué)家們還認(rèn)為司機(jī)是計(jì)算機(jī)難以取代人的幾個行業(yè)之一。當(dāng)然,他們不是憑空得出這個結(jié)論的,除了分析了技術(shù)上和心理上的難度外,還參考了當(dāng)年DARPA組織的自動駕駛汽車?yán)惖慕Y(jié)果--當(dāng)時排名第一的汽車花了幾小時才開出8英里,然后就拋錨了。但是,僅僅過了6年后,2010年Google的自動駕駛汽車不僅研制出來了,而且已經(jīng)在高速公路和繁華的市區(qū)行駛了14萬英里,沒有出一次事故。
為什么Google能在不到六年的時間里做到這一點(diǎn)呢?最根本的原因是它的思維方式和以往的科學(xué)家們都不同--它把這個機(jī)器人的問題變成了一個大數(shù)據(jù)的問題。首先,自動駕駛汽車項(xiàng)目是Google街景項(xiàng)目的延伸,Google自動駕駛汽車只能去它“掃過街”的地方,而在行駛到這些地方時,它對周圍的環(huán)境是非常了解的,這就是大數(shù)據(jù)完備性的威力。而過去那些研究所里研制的自動駕駛汽車,每到一處都要臨時地識別目標(biāo),這是人思維的方式。其次,Google的自動駕駛汽車上面裝了十幾個傳感器,每秒鐘幾十次的各種掃描,這不僅超過了人所謂的“眼觀六路、耳聽八方”,而且積攢下來的大量的數(shù)據(jù),對各地的路況,以及不同交通狀況下車輛行駛的模式有準(zhǔn)確的了解,計(jì)算機(jī)學(xué)習(xí)這些“經(jīng)驗(yàn)”的速度則遠(yuǎn)遠(yuǎn)比人快得多,這是大數(shù)據(jù)多維度的優(yōu)勢。這兩點(diǎn)是過去學(xué)術(shù)界所不具備的條件,依靠它們,Google才能在非常短的時間里實(shí)現(xiàn)汽車的自動駕駛。
大數(shù)據(jù)的第三個特征在它的英文提法“Big Data”這個詞當(dāng)中體現(xiàn)的很清楚。請注意,這里使用的是Big Data,而不是Large Data。Big和Large這兩個單詞有什么區(qū)別呢,Big更主要是強(qiáng)調(diào)抽象意義上的大,而Large是強(qiáng)調(diào)數(shù)量(或者尺寸)大,比如大桌子Large Table。Big Data的提法,不僅表示大的數(shù)據(jù)量,更重要地是強(qiáng)調(diào)思維方式的不同。這種以數(shù)據(jù)為主的新的做法,在某種程度上顛覆了我們長期以來在科學(xué)和工程上的方法論。在過去,我們強(qiáng)調(diào)做一件事情的因果關(guān)系,通過前提和假設(shè),推導(dǎo)出結(jié)果。但是在大數(shù)據(jù)時代,由于數(shù)據(jù)的完備性,我們常常是先知道結(jié)論,再找原因(甚至不去找原因),那么我們是否愿意去接受這樣的工作方式。事實(shí)上,在一些具有大數(shù)據(jù)的IT公司里,包括Google,阿里巴巴等,今天已經(jīng)是按照這種思維方式做事情了。Google的產(chǎn)品比競爭對手稍微好一點(diǎn),主要不是靠技術(shù),而是靠它的數(shù)據(jù)比對手更完備,同時它愿意用數(shù)據(jù)來解決問題。阿里巴巴的小額貸款能做起來(而其它商業(yè)銀行做不到),其實(shí)就是對大數(shù)據(jù)思維的一種詮釋。這是一種我們以前完全沒見過的新的思維方式,一種新的方法論。