大數(shù)據(jù)應(yīng)用涉及幾乎所有的領(lǐng)域,大數(shù)據(jù)的優(yōu)勢是能在長尾應(yīng)用中發(fā)現(xiàn)稀疏而珍貴的價值,但一種優(yōu)化的計算機系統(tǒng)結(jié)構(gòu)很難適應(yīng)各種不同的需求,碎片化的應(yīng)用大大增加了信息系統(tǒng)的復(fù)雜性,像昆蟲種類一樣多(500多萬種)的大數(shù)據(jù)和物聯(lián)網(wǎng)應(yīng)用如何形成手機一樣的巨大市場,這就是所謂“昆蟲綱悖論”[6]。為了化解計算機系統(tǒng)的復(fù)雜性,需要研究異構(gòu)計算系統(tǒng)和可塑計算技術(shù)。
大數(shù)據(jù)應(yīng)用中,計算機系統(tǒng)的負載發(fā)生了本質(zhì)性變化,計算機系統(tǒng)結(jié)構(gòu)需要革命性的重構(gòu)。信息系統(tǒng)需要從數(shù)據(jù)圍著處理器轉(zhuǎn)改變?yōu)樘幚砟芰鴶?shù)據(jù)轉(zhuǎn),關(guān)注的重點不是數(shù)據(jù)加工,而是數(shù)據(jù)的搬運;系統(tǒng)結(jié)構(gòu)設(shè)計的出發(fā)點要從重視單任務(wù)的完成時間轉(zhuǎn)變到提高系統(tǒng)吞吐率和并行處理能力,并發(fā)執(zhí)行的規(guī)模要提高到10億級以上。構(gòu)建以數(shù)據(jù)為中心的計算系統(tǒng)的基本思路是從根本上消除不必要的數(shù)據(jù)流動,必要的數(shù)據(jù)搬運也應(yīng)由“大象搬木頭”轉(zhuǎn)變?yōu)?ldquo;螞蟻搬大米”。
5 發(fā)展大數(shù)據(jù)應(yīng)避免的誤區(qū)
5.1 不要一味追求“數(shù)據(jù)規(guī)模大”
大數(shù)據(jù)主要難點不是數(shù)據(jù)量大,而是數(shù)據(jù)類型多樣、要求及時回應(yīng)和原始數(shù)據(jù)真假難辨。現(xiàn)有數(shù)據(jù)庫軟件解決不了非結(jié)構(gòu)化數(shù)據(jù),要重視數(shù)據(jù)融合、數(shù)據(jù)格式的標準化和數(shù)據(jù)的互操作。采集的數(shù)據(jù)往往質(zhì)量不高是大數(shù)據(jù)的特點之一,但盡可能提高原始數(shù)據(jù)的質(zhì)量仍然值得重視。腦科學(xué)研究的最大問題就是采集的數(shù)據(jù)可信度差,基于可信度很差的數(shù)據(jù)難以分析出有價值的結(jié)果。
一味追求數(shù)據(jù)規(guī)模大不僅會造成浪費,而且效果未必很好。多個來源的小數(shù)據(jù)的集成融合可能挖掘出單一來源大數(shù)據(jù)得不到的大價值。應(yīng)多在數(shù)據(jù)的融合技術(shù)上下功夫,重視數(shù)據(jù)的開放與共享。所謂數(shù)據(jù)規(guī)模大與應(yīng)用領(lǐng)域有密切關(guān)系,有些領(lǐng)域幾個PB的數(shù)據(jù)未必算大,有些領(lǐng)域可能幾十TB已經(jīng)是很大的規(guī)模。
發(fā)展大數(shù)據(jù)不能無止境地追求“更大、更多、更快”,要走低成本、低能耗、惠及大眾、公正法治的良性發(fā)展道路,要像現(xiàn)在治理環(huán)境污染一樣,及早關(guān)注大數(shù)據(jù)可能帶來的“污染”和侵犯隱私等各種弊端。
5.2 不要“技術(shù)驅(qū)動”,要“應(yīng)用為先”
新的信息技術(shù)層出不窮,信息領(lǐng)域不斷冒出新概念、新名詞,估計繼“大數(shù)據(jù)”以后,“認知計算”、“可穿戴設(shè)備”、“機器人”等新技術(shù)又會進入炒作高峰。我們習(xí)慣于跟隨國外的熱潮,往往不自覺地跟著技術(shù)潮流走,最容易走上“技術(shù)驅(qū)動”的道路。實際上發(fā)展信息技術(shù)的目的是為人服務(wù),檢驗一切技術(shù)的唯一標準是應(yīng)用。我國發(fā)展大數(shù)據(jù)產(chǎn)業(yè)一定要堅持“應(yīng)用為先”的發(fā)展戰(zhàn)略,堅持應(yīng)用牽引的技術(shù)路線。技術(shù)有限,應(yīng)用無限。各地發(fā)展云計算和大數(shù)據(jù),一定要通過政策和各種措施調(diào)動應(yīng)用部門和創(chuàng)新企業(yè)的積極性,通過跨界的組合創(chuàng)新開拓新的應(yīng)用,從應(yīng)用中找出路。
5.3 不能拋棄“小數(shù)據(jù)”方法
流行的“大數(shù)據(jù)”定義是:無法通過目前主流軟件工具在合理時間內(nèi)采集、存儲、處理的數(shù)據(jù)集。這是用不能勝任的技術(shù)定義問題,可能導(dǎo)致認識的誤區(qū)。按照這種定義,人們可能只會重視目前解決不了的問題,如同走路的人想踩著自己身前的影子。其實,目前各行各業(yè)碰到的數(shù)據(jù)處理多數(shù)還是“小數(shù)據(jù)”問題。我們應(yīng)重視實際碰到的問題,不管是大數(shù)據(jù)還是小數(shù)據(jù)。
統(tǒng)計學(xué)家們花了200多年,總結(jié)出認知數(shù)據(jù)過程中的種種陷阱,這些陷阱不會隨著數(shù)據(jù)量的增大而自動填平。大數(shù)據(jù)中有大量的小數(shù)據(jù)問題,大數(shù)據(jù)采集同樣會犯小數(shù)據(jù)采集一樣的統(tǒng)計偏差。Google公司的流感預(yù)測這兩年失靈,就是由于搜索推薦等人為的干預(yù)造成統(tǒng)計誤差。
大數(shù)據(jù)界流行一種看法:大數(shù)據(jù)不需要分析因果關(guān)系、不需要采樣、不需要精確數(shù)據(jù)。這種觀念不能絕對化,實際工作中要邏輯演繹和歸納相結(jié)合、白盒與黑盒研究相結(jié)合、大數(shù)據(jù)方法與小數(shù)據(jù)方法相結(jié)合。
5.4 要高度關(guān)注構(gòu)建大數(shù)據(jù)平臺的成本
目前全國各地都在建設(shè)大數(shù)據(jù)中心,呂梁山下都建立了容量達2 PB以上的數(shù)據(jù)處理中心,許多城市公安部門要求存儲3個月以上的高清監(jiān)控錄像。這些系統(tǒng)的成本都非常高。數(shù)據(jù)挖掘的價值是用成本換來的,不能不計成本,盲目建設(shè)大數(shù)據(jù)系統(tǒng)。什么數(shù)據(jù)需要保存,要保存多少時間,應(yīng)當(dāng)根據(jù)可能的價值和所需的成本來決定。大數(shù)據(jù)系統(tǒng)技術(shù)還在研究之中,美國的E級超級計算機系統(tǒng)要求能耗降低1 000倍,計劃到2024年才能研制出來,用現(xiàn)在的技術(shù)構(gòu)建的巨型系統(tǒng)能耗極高。