關(guān)于大數(shù)據(jù),我有幾點(diǎn)看法:第一,由于大數(shù)據(jù)剛剛熱起來(lái),所以不必著急下結(jié)論。當(dāng)年IT剛剛發(fā)展時(shí),研究增長(zhǎng)問(wèn)題的權(quán)威羅伯特·索洛(Robert Solow)教授提出了一個(gè)“索洛悖論”:“我們到處都看得見(jiàn)計(jì)算機(jī),就是在生產(chǎn)率統(tǒng)計(jì)方面卻看不見(jiàn)。”直到過(guò)了15年,到2002年時(shí),他才公開(kāi)承認(rèn)說(shuō):“我現(xiàn)在發(fā)現(xiàn)IT可能對(duì)生產(chǎn)率是有貢獻(xiàn)的。”對(duì)大數(shù)據(jù)的研究,可能也需要一個(gè)很長(zhǎng)的時(shí)間才能確認(rèn)價(jià)值所在。
第二,可能性不等于可行性?,F(xiàn)在有種觀點(diǎn):“到底是大數(shù)據(jù)還是大忽悠?什么都講是大數(shù)據(jù)。”其實(shí)是說(shuō)現(xiàn)在講的或者設(shè)想的都是“可能性”而不是“可行性”。“可行性”要到什么時(shí)間?現(xiàn)在還看不出來(lái)。它需要合理的制度安排,還需要企業(yè)、公司不斷地進(jìn)行商業(yè)實(shí)踐、不斷試錯(cuò),以及科研工作者對(duì)大數(shù)據(jù)分析技術(shù)的不斷改進(jìn)。
第三,目前的研究主要還是提問(wèn)階段,而不是解決問(wèn)題。當(dāng)然,如果能提出好的問(wèn)題,這也算是一個(gè)研究的好成果。
最后,本文盡量多擺事實(shí)、少講道理;多提供一點(diǎn)素材,少提供一點(diǎn)觀點(diǎn)。
一、大數(shù)據(jù)的產(chǎn)生、內(nèi)涵及爭(zhēng)議
首先,大數(shù)據(jù)何來(lái)?實(shí)際上大數(shù)據(jù)一直存在,存在于不同的地方。比如每個(gè)人都包涵著很多數(shù)據(jù):身高、體重等等,包括觀點(diǎn)、思想。但是過(guò)去沒(méi)有互聯(lián)網(wǎng),所以這些數(shù)據(jù)很難得到應(yīng)用。數(shù)據(jù)分析在很早就存在。春秋時(shí)孫臏就曾用對(duì)方營(yíng)地做灶的數(shù)量來(lái)判斷對(duì)方軍隊(duì)的數(shù)量,從而指導(dǎo)打仗。不過(guò),當(dāng)時(shí)這樣的數(shù)據(jù)非常少,有這個(gè)利用能力的人才會(huì)成為時(shí)代的智者。
然而,現(xiàn)在的情況不太一樣了。互聯(lián)網(wǎng)應(yīng)用以來(lái),從2005年開(kāi)始,數(shù)據(jù)在不斷地增長(zhǎng),到2010年以后基本上是一個(gè)指數(shù)增長(zhǎng)的過(guò)程,到2013年時(shí)已經(jīng)超過(guò)4個(gè)ZB,每年的增長(zhǎng)率超過(guò)50%。這就是一個(gè)從量變到質(zhì)變的過(guò)程。
之前為什么不說(shuō)大數(shù)據(jù)呢?這是個(gè)相對(duì)的概念,到某一天它的增長(zhǎng)速度突然特別快的時(shí)候,“大”的概念就蹦出來(lái)了。所以它其實(shí)不是一個(gè)嚴(yán)格的學(xué)術(shù)概念,只是因?yàn)樵诹孔兊倪^(guò)程中大家感覺(jué)到這種質(zhì)變,或者感覺(jué)它里面有價(jià)值。
主要的數(shù)據(jù)來(lái)源
主要的數(shù)據(jù)來(lái)源,總的來(lái)講有兩個(gè)方面:
第一,物的數(shù)據(jù)。
其中比較有代表性的,就是由傳感器組成的物聯(lián)網(wǎng),這個(gè)概念是IBM(189.64, 0.49, 0.26%)在2009年提出來(lái)的一種商業(yè)模式,當(dāng)時(shí)叫“智慧地球”。就是把傳感器裝到不同的物體上面,然后展現(xiàn)它的各種數(shù)據(jù),比如溫度、濕度、壓力等等。物聯(lián)網(wǎng)這幾年的增長(zhǎng)速度比較快,能達(dá)到20%-30%的增長(zhǎng)速度,物的數(shù)據(jù)在不斷地增加。
第二,人的數(shù)據(jù)。
其中最典型的是移動(dòng)互聯(lián)網(wǎng)的發(fā)展。近年來(lái)移動(dòng)互聯(lián)網(wǎng)占整個(gè)互聯(lián)網(wǎng)流量的比例越來(lái)越高,移動(dòng)端尤其是用戶自己發(fā)送數(shù)據(jù)的比例大大提高了,這也是大數(shù)據(jù)非常重要的一個(gè)來(lái)源。通過(guò)這些移動(dòng)端的數(shù)據(jù),就可以判斷一個(gè)人的職業(yè)、興趣、品質(zhì)或者其每時(shí)每刻的位置,就是說(shuō),靠這些數(shù)據(jù)能很精確地找到每個(gè)人的各種情況。
數(shù)據(jù)為什么會(huì)突然大量增加?一是IT成本下降,此外,跟這兩年云計(jì)算使用率的上升有很大的關(guān)系。從亞馬遜(313.65, 6.59, 2.15%)彈性云存儲(chǔ)的文件量增長(zhǎng)情況可見(jiàn),從2006年到2013年增加的量是非常顯著的,到2013年二季度時(shí)已經(jīng)有2萬(wàn)億數(shù)量文件存儲(chǔ)在彈性云上。
那么,云計(jì)算為什么會(huì)降低IT成本?基于我們之前一年的實(shí)踐研究數(shù)據(jù)可知,首先,從需求方來(lái)看,過(guò)去購(gòu)買一些硬件包括服務(wù)器、電腦等等,成本比較昂貴。但是云計(jì)算系統(tǒng)把IT資源集中起來(lái)后,以租用的方式來(lái)使用,就比買它的價(jià)格便宜很多。從供給的角度來(lái)看,當(dāng)把所有的IT資源集中起來(lái)以后,會(huì)有非常明顯的規(guī)模經(jīng)濟(jì),因?yàn)橥瑫r(shí)運(yùn)營(yíng)很多臺(tái)服務(wù)器(當(dāng)然這是基于技術(shù)),其成本會(huì)顯著下降。
這里還有一個(gè)范圍經(jīng)濟(jì)的概念:當(dāng)把IT資源集中起來(lái)以后,不單有規(guī)模經(jīng)濟(jì),還經(jīng)營(yíng)了多種的資源。比如說(shuō),搜索可能需要占很多CPU的計(jì)算資源,但是磁盤資源可能沒(méi)那么多;電子郵件可能相反。當(dāng)它集中運(yùn)用的時(shí)候,可以同時(shí)得到這兩種效率。所以,這也是云計(jì)算對(duì)IT成本下降的一個(gè)貢獻(xiàn)。