在涂子沛的第四次國(guó)內(nèi)巡講之旅中,連早餐時(shí)間都已經(jīng)被占滿了。
6月16日,這位《大數(shù)據(jù)》一書的作者在招商銀行深圳總部大樓與馬蔚華共進(jìn)早餐。馬剛剛卸任招商銀行行長(zhǎng),不久前,他的照片曾出現(xiàn)在電影《中國(guó)合伙人》的片尾致敬花絮里,和他一同進(jìn)入大銀幕的企業(yè)家還包括柳傳志、王石、馬云等人。
“未來的世界一定是數(shù)據(jù)化的世界,未來的城市也一定會(huì)是數(shù)據(jù)化的城市。”在一個(gè)多小時(shí)的早餐會(huì)面里,馬蔚華幾次向涂子沛強(qiáng)調(diào)這一觀點(diǎn)。
事實(shí)上,從去年7月《大數(shù)據(jù)》出版后開始,每當(dāng)這位在美國(guó)供職的中國(guó)程序員回到國(guó)內(nèi),都會(huì)受到熱烈的追捧。和馬蔚華共進(jìn)早餐的第二天,他在江蘇常州就“教育與大數(shù)據(jù)”的話題進(jìn)行了一場(chǎng)聽眾超過1000人的講座,組織者是當(dāng)?shù)氐慕逃志珠L(zhǎng)。其間,他還與國(guó)泰君安證券股份有限公司董事長(zhǎng)萬建華吃了一頓午飯,萬告訴他,在自己的新書《金融e時(shí)代》里,有整整一章都在探討大數(shù)據(jù)的問題。
“從認(rèn)識(shí)的角度講, 這一年絕對(duì)可以稱為中國(guó)的大數(shù)據(jù)元年。”涂子沛說。在過去的一年里,包括他的《大數(shù)據(jù)》在內(nèi),有超過20本以大數(shù)據(jù)為主題的新書在中國(guó)面世, 在當(dāng)當(dāng)網(wǎng)上,幾本賣得最好的書甚至被打上了“限量購(gòu)”的標(biāo)簽。
如果把2013年全世界預(yù)計(jì)將存儲(chǔ)的數(shù)據(jù)總量全部記在書里,那么這些書可以覆蓋整個(gè)美國(guó)52次
涂子沛在國(guó)內(nèi)的第一場(chǎng)公開演講正是受馬蔚華之邀。在去年10月的招商銀行全國(guó)行長(zhǎng)研討班上,從美國(guó)趕來的涂子沛一下飛機(jī)就被拉到會(huì)場(chǎng),當(dāng)著100多位分行行長(zhǎng)的面,講了4個(gè)多小時(shí)的大數(shù)據(jù)。
“什么是大數(shù)據(jù)?”來自全國(guó)各地的行長(zhǎng)們最好奇的就是這個(gè)問題。
按照涂子沛的解釋,這首先是對(duì)信息爆炸時(shí)代的嶄新描述。事實(shí)上,如果把2013年全世界預(yù)計(jì)將存儲(chǔ)的數(shù)據(jù)總量全部記在書里,那么這些書可以覆蓋整個(gè)美國(guó)52次。如果將這些數(shù)據(jù)存儲(chǔ)在只讀光盤上,這些光盤可以堆成五堆,每一堆都可以伸到月球。
事實(shí)上,在互聯(lián)網(wǎng)專家維克托·邁爾-舍恩伯格的著作《大數(shù)據(jù)時(shí)代》里,曾將互聯(lián)網(wǎng)時(shí)代的數(shù)據(jù)洪流與1439年前后古登堡發(fā)明印刷機(jī)時(shí)造成的信息爆炸相對(duì)比,一個(gè)重要的發(fā)現(xiàn)就是“當(dāng)時(shí)信息存儲(chǔ)量花了50年才增長(zhǎng)了一倍,而如今大約每3年就能增長(zhǎng)一倍”。
但在涂子沛看來,僅僅用數(shù)量之大解讀大數(shù)據(jù)有失偏頗,能量之大才是大數(shù)據(jù)這枚硬幣的另一面。
一個(gè)經(jīng)典的案例是,在甲型H1N1流感爆發(fā)前幾周,谷歌公司通過觀察5000萬條美國(guó)人最頻繁檢索的詞條數(shù)據(jù),發(fā)現(xiàn)“哪些是治療咳嗽和發(fā)熱的藥物”這一主題的檢索頻率大增,進(jìn)而準(zhǔn)確預(yù)測(cè)了流感的發(fā)生及傳播范圍。
“面對(duì)海量數(shù)據(jù),誰(shuí)能更好地處理、分析數(shù)據(jù),誰(shuí)就能真正搶得大數(shù)據(jù)時(shí)代的先機(jī)。” 常年生活在美國(guó)的涂子沛對(duì)大數(shù)據(jù)的威力印象深刻,他記得有一次自己要搬家,便把各種各樣的家具在網(wǎng)上拍賣,結(jié)果很快就有搬家公司找上門來。
和涂子沛的看法類似,一位在美國(guó)攻讀統(tǒng)計(jì)學(xué)碩士的中國(guó)學(xué)生也告訴記者,大數(shù)據(jù)在美國(guó)非?;稹K宄赜浀谜n堂PPT上曾有過這樣的案例——美國(guó)有一個(gè)叫做Orbitz的訂票網(wǎng)站,他們通過數(shù)據(jù)分析,發(fā)現(xiàn)顧客訂票的價(jià)格高低往往與他們的網(wǎng)頁(yè)瀏覽器相關(guān),其中safari最高,chrome和firefox差不多。他們據(jù)此做出調(diào)整,一旦有用戶通過safari網(wǎng)頁(yè)登錄,往往會(huì)被優(yōu)先顯示價(jià)格高的搜索結(jié)果。
事實(shí)上,在麥肯錫發(fā)布的一份報(bào)告中,已經(jīng)將數(shù)據(jù)分析稱為 “下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的前沿”。
你想用3000多個(gè)樣本折射幾億用戶的行為,這事荒不荒唐就不用說了
在美國(guó),數(shù)據(jù)分析形成了一條完整的產(chǎn)業(yè)鏈,不少大學(xué)還設(shè)立了相關(guān)的碩士學(xué)位,而在中國(guó),這種傳道也正如燎原之火。在去年,一名叫王煜全的天使投資人曾經(jīng)和涂子沛同臺(tái)演講,和涂子沛一樣,他也是數(shù)據(jù)的忠實(shí)信徒,“自己現(xiàn)在會(huì)投的創(chuàng)業(yè)者,必須有數(shù)據(jù)分析技術(shù),否則免談”。
在王煜全看來,在傳統(tǒng)的社會(huì)學(xué)研究中,“大樣本、實(shí)時(shí)監(jiān)測(cè)、連續(xù)監(jiān)測(cè)”往往是不可兼得的條件,而大數(shù)據(jù)打破了這個(gè)迷思。
“我們都知道央視索福瑞是做電視收視率調(diào)查的,大家知道多少個(gè)樣本嗎?3000多個(gè)。你想用3000多個(gè)樣本折射幾億用戶的行為,這事荒不荒唐就不用說了。”他在一次演講中這樣說道,“web2.0改變了這個(gè)現(xiàn)狀,不管在Facebook、Twitter、新浪微博、微信上,我們能夠隨時(shí)獲得全樣本的實(shí)時(shí)的連續(xù)數(shù)據(jù),這個(gè)時(shí)候我們對(duì)用戶行為的理解就有可能達(dá)到空前的深度。比如在沒有社交網(wǎng)絡(luò)的時(shí)候,某位名人一直說自己是加州理工畢業(yè)的,大家相信了很久,等有社交網(wǎng)絡(luò)你再看他的好友圈,一定有若干個(gè)西太平洋而沒有加州理工的,你猜他是哪畢業(yè)的?”