在大多數(shù)情況下,對(duì)某種自然、社會(huì)現(xiàn)象的深入研究或者對(duì)用戶的超級(jí)刻畫(huà),信息廣度和信息深度缺一不可。從這個(gè)意義上講,真正的大數(shù)據(jù)應(yīng)是建立在共同的標(biāo)準(zhǔn)基礎(chǔ)之上,融合了企業(yè)、政府、科學(xué)研究等跨領(lǐng)域、跨行業(yè)、跨平臺(tái)數(shù)據(jù)的集合,是社會(huì)大數(shù)據(jù)。
然而,當(dāng)前的大數(shù)據(jù)依然以獨(dú)立孤島的形式存在,沒(méi)有任何一個(gè)組織能夠獲取在廣度和深度上都足夠充分的數(shù)據(jù)。應(yīng)該大力推進(jìn)全社會(huì)的數(shù)據(jù)公開(kāi)和共享,其中政府?dāng)?shù)據(jù)開(kāi)放尤其重要。毫不夸張地講,真正核心的數(shù)據(jù)絕大部分掌握在政府手中,沒(méi)有政府參與,就沒(méi)有真正的大數(shù)據(jù)。
5、時(shí)效性:秒級(jí)價(jià)值存在
任何數(shù)據(jù)都位于一個(gè)連續(xù)的時(shí)間軸上,都有其時(shí)間屬性,即數(shù)據(jù)年齡。不同年齡的數(shù)據(jù)有著不同的價(jià)值特性,往往老數(shù)據(jù)具有總體或趨勢(shì)分析價(jià)值,新數(shù)據(jù)則更具有個(gè)體應(yīng)用價(jià)值。大數(shù)據(jù)時(shí)代,信息更新速度非常快,從應(yīng)用的角度看,大數(shù)據(jù)的時(shí)效性往往非常短。
用于探測(cè)地震和海嘯的傳感器所產(chǎn)生的數(shù)據(jù)時(shí)效往往只有幾秒鐘,在此之后就基本失去意義了。美國(guó)國(guó)家海洋局的超級(jí)計(jì)算機(jī)能夠利用傳感器傳輸?shù)臄?shù)據(jù),在日本地震后9分鐘內(nèi)計(jì)算出海嘯的可能性及強(qiáng)度。短短的9分鐘,基本反映了當(dāng)前人類計(jì)算的最高水平,但這對(duì)于瞬間消失的生命來(lái)說(shuō)還是太長(zhǎng)了。
實(shí)時(shí)營(yíng)銷對(duì)用戶狀態(tài)信息的時(shí)效性也有很高的要求,試想想,如果你的目標(biāo)用戶在離開(kāi)店面500米后才收到你所謂“量身定做”的促銷信息,他(她)是不是會(huì)對(duì)此嗤之以鼻?
大數(shù)據(jù)時(shí)效性的要求對(duì)數(shù)據(jù)的實(shí)時(shí)采集、實(shí)時(shí)加工、實(shí)時(shí)分發(fā)提出了極高的要求。數(shù)據(jù)處理上有一個(gè)著名的“1秒定律”,即要在秒級(jí)的時(shí)間范圍內(nèi)計(jì)算出分析結(jié)果并分發(fā)出去,超過(guò)這個(gè)時(shí)間,數(shù)據(jù)就失去價(jià)值了。這在許多時(shí)候還很難做到,從而在相當(dāng)程度上限制了大數(shù)據(jù)的應(yīng)用。
6、解釋性:不能沒(méi)有因果關(guān)系
對(duì)于舍恩伯格關(guān)于大數(shù)據(jù)的另一個(gè)核心觀點(diǎn),“不是因果關(guān)系,而是相關(guān)關(guān)系”,只需要了解是什么或未來(lái)會(huì)發(fā)生什么,而不是為什么和事情發(fā)生的內(nèi)在原因,筆者同樣不敢茍同。
相關(guān)關(guān)系僅代表著過(guò)去和個(gè)案,沒(méi)有解釋性,有時(shí)甚至是錯(cuò)誤的,而且不能推而廣之。只有掌握了事物之間的因果關(guān)系、原因機(jī)制和科學(xué)原理,才能舉一反三,迭代更新,持續(xù)推動(dòng)社會(huì)進(jìn)步。這是很簡(jiǎn)單的道理,不必贅言。
關(guān)于相關(guān)性,一直為人津津樂(lè)道的便是啤酒與尿布的故事。然而,沃爾瑪商品品種成千上萬(wàn),相關(guān)關(guān)系數(shù)十億之多,我想類似的絕妙組合尚有不少,為什么再也難見(jiàn)?更何況,人們?nèi)匀粚?duì)啤酒與尿布的相關(guān)關(guān)系進(jìn)行了合理的因果邏輯解釋。試想,如果首先發(fā)現(xiàn)了這樣的因果關(guān)系,再通過(guò)相關(guān)關(guān)系予以驗(yàn)證,是否可以發(fā)現(xiàn)更多的“啤酒和尿布”?
大數(shù)據(jù)分析需要借助機(jī)器來(lái)完成,而機(jī)器從來(lái)就只能給出數(shù)據(jù)間的相關(guān)關(guān)系,而不能說(shuō)明因果邏輯。因果關(guān)系需要人的思考和判斷,電腦現(xiàn)在沒(méi)有、將來(lái)也不可能完全替代人腦。玩笑一下,如此急迫地強(qiáng)調(diào)相關(guān)關(guān)系而不是因果關(guān)系,難道我們真的不需要腦子了嗎?
7、預(yù)測(cè)性:讓過(guò)去決定未來(lái)
大數(shù)據(jù)分析無(wú)論被賦予多么絢麗的光環(huán),從根本上講都只是對(duì)過(guò)去和現(xiàn)實(shí)的歸納和總結(jié),其本身并不具有趨勢(shì)和方向性的特征。決定趨勢(shì)的是事物發(fā)展的內(nèi)在因素及相互作用,在此方面大數(shù)據(jù)無(wú)能為力,這是大數(shù)據(jù)的先天性缺陷之一。
舍恩伯格也坦言,與大數(shù)據(jù)同行是有一定風(fēng)險(xiǎn)的,大數(shù)據(jù)有可能會(huì)把我們鎖定在以往的錯(cuò)誤當(dāng)中,使我們墮入讓過(guò)去決定未來(lái)的陷阱。
現(xiàn)在有些基金公司推出大數(shù)據(jù)指數(shù)基金,期望通過(guò)大數(shù)據(jù)對(duì)股票行情進(jìn)行準(zhǔn)確的預(yù)測(cè)。歷史行情走勢(shì)只是過(guò)去已經(jīng)發(fā)生的影響股票市場(chǎng)的諸多因素共同作用的結(jié)果,以此來(lái)預(yù)測(cè)未來(lái)的市場(chǎng)根本不靠譜。普林斯頓大學(xué)經(jīng)濟(jì)學(xué)教授伯頓·麥基爾早在1973年的暢銷作品《漫步華爾街》中就指出,把一只猴子蒙上雙眼后讓它向報(bào)紙的金融版擲飛鏢而選中的投資組合,和那些專家經(jīng)過(guò)大量研究而謹(jǐn)慎選擇的投資組合相比,盈利性可能一樣好。近幾年甚至有研究者提出,麥基爾的這種看法低估了猴子(應(yīng)該是高估了基金經(jīng)理吧)。2008年,好事的俄國(guó)人更是用實(shí)驗(yàn)證明了這一點(diǎn)。俄羅斯《財(cái)經(jīng)周刊》從馬戲團(tuán)找來(lái)一只猴子,讓它從代表不同股票的牌子中選擇8支進(jìn)行模擬投資組合,并投入100萬(wàn)虛擬盧布。一年后,當(dāng)金融專家再次觀察猴子所選股票的表現(xiàn)時(shí)不由大吃一驚,其市值上漲了近3倍,跑贏了94%的基金。