大數(shù)據(jù)應(yīng)用本質(zhì)上是在給定的時(shí)間、空間限制下,如何“算得多”。從“算得快”到“算得多”,考慮計(jì)算復(fù)雜性的思維邏輯有很大的轉(zhuǎn)變。所謂“算得多”并不是計(jì)算的數(shù)據(jù)量越大越好,需要探索從足夠多的數(shù)據(jù),到剛剛好的數(shù)據(jù),再到有價(jià)值的數(shù)據(jù)的按需約簡(jiǎn)方法。
發(fā)展大數(shù)據(jù)應(yīng)避免的誤區(qū)
不要一味追求“數(shù)據(jù)規(guī)模大”。大數(shù)據(jù)主要難點(diǎn)不是數(shù)據(jù)量大,而是數(shù)據(jù)類型多樣、要求及時(shí)回應(yīng)和原始數(shù)據(jù)真假難辨?,F(xiàn)有數(shù)據(jù)庫(kù)軟件解決不了非結(jié)構(gòu)化數(shù)據(jù),要重視數(shù)據(jù)融合、數(shù)據(jù)格式的標(biāo)準(zhǔn)化和數(shù)據(jù)的互操作。采集的數(shù)據(jù)往往質(zhì)量不高是大數(shù)據(jù)的特點(diǎn)之一,但盡可能提高原始數(shù)據(jù)的質(zhì)量仍然值得重視。腦科學(xué)研究的最大問題就是采集的數(shù)據(jù)可信度差,基于可信度很差的數(shù)據(jù)難以分析出有價(jià)值的結(jié)果。
一味追求數(shù)據(jù)規(guī)模大不僅會(huì)造成浪費(fèi),而且效果未必很好。多個(gè)來源的小數(shù)據(jù)的集成融合可能挖掘出單一來源大數(shù)據(jù)得不到的大價(jià)值。應(yīng)多在數(shù)據(jù)的融合技術(shù)上下功夫,重視數(shù)據(jù)的開放與共享。所謂數(shù)據(jù)規(guī)模大與應(yīng)用領(lǐng)域有密切關(guān)系,有些領(lǐng)域幾個(gè)PB的數(shù)據(jù)未必算大,有些領(lǐng)域可能幾十TB已經(jīng)是很大的規(guī)模。
發(fā)展大數(shù)據(jù)不能無止境地追求“更大、更多、更快”,要走低成本、低能耗、惠及大眾、公正法治的良性發(fā)展道路。要像現(xiàn)在治理環(huán)境污染一樣,及早關(guān)注大數(shù)據(jù)可能帶來的“污染”和侵犯隱私等各種弊端。
不要“技術(shù)驅(qū)動(dòng)”,要“應(yīng)用為先”。新的信息技術(shù)層出不窮,信息領(lǐng)域不斷冒出新概念、新名詞,估計(jì)繼“大數(shù)據(jù)”以后,“認(rèn)知計(jì)算”、“可穿戴設(shè)備”、“機(jī)器人”等新技術(shù)又會(huì)進(jìn)入炒作高峰。我們習(xí)慣于跟隨國(guó)外的熱潮,往往不自覺地跟著技術(shù)潮流走,最容易走上“技術(shù)驅(qū)動(dòng)”的道路。實(shí)際上發(fā)展信息技術(shù)的目的是為人服務(wù),檢驗(yàn)一切技術(shù)的唯一標(biāo)準(zhǔn)是應(yīng)用。發(fā)展大數(shù)據(jù)產(chǎn)業(yè)一定要堅(jiān)持“應(yīng)用為先”的發(fā)展戰(zhàn)略,堅(jiān)持應(yīng)用牽引的技術(shù)路線。技術(shù)有限,應(yīng)用無限。各地發(fā)展云計(jì)算和大數(shù)據(jù),一定要通過政策和各種措施調(diào)動(dòng)應(yīng)用部門和創(chuàng)新企業(yè)的積極性,通過跨界的組合創(chuàng)新開拓新的應(yīng)用,從應(yīng)用中找出路。
不能拋棄“小數(shù)據(jù)”方法。流行的“大數(shù)據(jù)”定義是:無法通過目前主流軟件工具在合理時(shí)間內(nèi)采集、存儲(chǔ)、處理的數(shù)據(jù)集。這是用不能勝任的技術(shù)定義問題,可能導(dǎo)致認(rèn)識(shí)的誤區(qū)。按照這種定義,人們可能只會(huì)重視目前解決不了的問題,如同走路的人想踩著自己身前的影子。其實(shí),目前各行各業(yè)碰到的數(shù)據(jù)處理多數(shù)還是“小數(shù)據(jù)”問題。我們應(yīng)重視實(shí)際碰到的問題,不管是大數(shù)據(jù)還是小數(shù)據(jù)。
大數(shù)據(jù)界流行一種看法:大數(shù)據(jù)不需要分析因果關(guān)系、不需要采樣、不需要精確數(shù)據(jù)。這種觀念不能絕對(duì)化,實(shí)際工作中要邏輯演繹和歸納相結(jié)合、白盒與黑盒研究相結(jié)合、大數(shù)據(jù)方法與小數(shù)據(jù)方法相結(jié)合。
要高度關(guān)注構(gòu)建大數(shù)據(jù)平臺(tái)的成本。目前全國(guó)各地都在建設(shè)大數(shù)據(jù)中心,呂梁山下都建立了容量達(dá)2 PB以上的數(shù)據(jù)處理中心,許多城市公安部門要求存儲(chǔ)3個(gè)月以上的高清監(jiān)控錄像。這些系統(tǒng)的成本都非常高。數(shù)據(jù)挖掘的價(jià)值是用成本換來的,不能不計(jì)成本,盲目建設(shè)大數(shù)據(jù)系統(tǒng)。什么數(shù)據(jù)需要保存,要保存多少時(shí)間,應(yīng)當(dāng)根據(jù)可能的價(jià)值和所需的成本來決定。大數(shù)據(jù)系統(tǒng)技術(shù)還在研究之中,美國(guó)的E級(jí)超級(jí)計(jì)算機(jī)系統(tǒng)要求能耗降低1000倍,計(jì)劃到2024年才能研制出來,用現(xiàn)在的技術(shù)構(gòu)建的巨型系統(tǒng)能耗極高。
我們不要攀比大數(shù)據(jù)系統(tǒng)的規(guī)模,而是要比實(shí)際應(yīng)用效果,比完成同樣的事消耗更少的資源和能量。先抓老百姓最需要的大數(shù)據(jù)應(yīng)用,因地制宜發(fā)展大數(shù)據(jù)。發(fā)展大數(shù)據(jù)與實(shí)現(xiàn)信息化的策略一樣:目標(biāo)要遠(yuǎn)大、起步要精準(zhǔn)、發(fā)展要快速。