大數(shù)據(jù)以其“淺顯易懂”的概念和預想中的巨大應用前景,成為了繼云計算、物聯(lián)網(wǎng)之后信息技術(shù)領(lǐng)域的又一熱點。但在各界的加倍關(guān)注中,國內(nèi)大數(shù)據(jù)領(lǐng)域的明顯進展未現(xiàn),卻已經(jīng)顯示出或多或少的“泡沫”。借大數(shù)據(jù)之名圈錢圈地或進行重復建設(shè)的苗頭已然出現(xiàn)。這種情況下,需要深化對大數(shù)據(jù)內(nèi)涵與特征的認識?;趯Υ髷?shù)據(jù)的跟蹤研究,賽迪智庫認為,可重點從四個方面進行認識和把握。
大數(shù)據(jù)發(fā)展的重點在于對數(shù)據(jù)對象的分析與應用
曾聽到專家對某地方政府領(lǐng)導建言,建設(shè)大規(guī)模的數(shù)據(jù)中心,備份存儲用戶的數(shù)據(jù),就是發(fā)展大數(shù)據(jù)產(chǎn)業(yè);也有機構(gòu)提出發(fā)展大數(shù)據(jù)必須重點加強基礎(chǔ)設(shè)施建設(shè)。這些觀點都偏離了大數(shù)據(jù)的本意,也會將大數(shù)據(jù)發(fā)展引向歧途。
從根本上看,“大數(shù)據(jù)”并非一個科學、嚴格的概念,它來自于對數(shù)據(jù)規(guī)模的爆炸性增長這一現(xiàn)象的歸納。但在“海量數(shù)據(jù)”、“大規(guī)模數(shù)據(jù)”等概念已經(jīng)存在的前提下,之所以還要提出新的概念,就是因為既有概念只著眼于數(shù)據(jù)規(guī)模本身,未能充分反映數(shù)據(jù)爆炸大背景下的數(shù)據(jù)處理與應用需求。而“大數(shù)據(jù)”這一概念所以能夠引發(fā)共識,成為當前熱點,就在于各個行業(yè)領(lǐng)域具有了對大數(shù)據(jù)分析和利用的巨大現(xiàn)實需求和具體應用需求。所以說,大數(shù)據(jù)的內(nèi)涵,不僅指規(guī)模超出傳統(tǒng)技術(shù)處理能力的靜態(tài)的數(shù)據(jù)對象,又包含著對這些數(shù)據(jù)對象的動態(tài)的處理和應用活動。
若再考察數(shù)據(jù)的生命周期,從數(shù)據(jù)生成、數(shù)據(jù)傳輸、數(shù)據(jù)采集,到數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)應用,會涉及多個環(huán)節(jié)和若干層面,但就大數(shù)據(jù)而言,其重點不在于對數(shù)據(jù)的傳輸、收集、存儲,而是重在對數(shù)據(jù)的分析挖掘,并由此獲得憑直覺難以發(fā)現(xiàn)的有用信息。惟有將重點放在數(shù)據(jù)的分析挖掘與應用上,才能最大程度地實現(xiàn)大數(shù)據(jù)的真正價值,也惟有分析與應用才是大數(shù)據(jù)及大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的重中之重。也因此,我們認為以分析處理為主要內(nèi)容的大數(shù)據(jù)服務將是大數(shù)據(jù)發(fā)展的核心。
大數(shù)據(jù)對象的重點在于獲取與使用
若僅就大數(shù)據(jù)內(nèi)涵中所涉及的數(shù)據(jù)對象而言,有些觀點認為,必須下大力氣做好源數(shù)據(jù)集合的建設(shè)。這種觀點,有道理,但也不完全正確。例如,要想運用大數(shù)據(jù)手段實現(xiàn)智能交通,需要有城市的道路規(guī)劃、車輛、停車場等數(shù)據(jù),這些數(shù)據(jù)多由政府部門所掌握,對相應數(shù)據(jù)庫確實需要加強建設(shè)。但是,要想根據(jù)實際情況實時、靈活地管理交通,實現(xiàn)有效運行,僅靠以上數(shù)據(jù)遠遠不夠,還必須隨時跟蹤和整理道路流量數(shù)據(jù)、停車場容量數(shù)據(jù)、天氣數(shù)據(jù)、道路事故信息等,而這些數(shù)據(jù),不僅會來自于包括交管等部門,還能夠通過微博、微信等渠道獲取,甚至很多時候微博上的信息比管理部門的數(shù)據(jù)要更加迅速。那么眾所周知,微博等信息源是開放式的,任何部門都無法“擁有”這些數(shù)據(jù),惟一能做的就是盡力抓取、盡快收集整理。若是多分析幾個類似的事例就會發(fā)現(xiàn),在處理突發(fā)事件的應用需求之下,實時出現(xiàn)和獲取的動態(tài)數(shù)據(jù)要比通常數(shù)據(jù)庫中的靜態(tài)數(shù)據(jù)更有價值,微博、搜索引擎等公開來源的數(shù)據(jù)也往往比數(shù)據(jù)使用部門(如上述例子中的交管部門)所掌握的內(nèi)部數(shù)據(jù)更有價值。
因此,對于大數(shù)據(jù)所涉及的數(shù)據(jù)對象,必須分類對待。對政府部門、公共服務機構(gòu)、企業(yè)等所掌握和持續(xù)更新的數(shù)據(jù),需要加強建設(shè),作為數(shù)據(jù)應用的基礎(chǔ)。但同時,必須重視微博、微信、社交網(wǎng)絡、搜索引擎等新興數(shù)據(jù)源,做好對相關(guān)數(shù)據(jù)的跟蹤、抓取、整理和應用。
大數(shù)據(jù)作用的重點在于啟發(fā)與輔助決策
IBM最近提出了大數(shù)據(jù)的又一特征,真實與準確。但客觀來看,這一特征還有待商榷。事實上,雖然大數(shù)據(jù)應用的目標和理想結(jié)果,是通過對大數(shù)據(jù)對象的分析挖掘,發(fā)現(xiàn)新的知識規(guī)則和新的有用信息,但是對于由計算機完成的大數(shù)據(jù)分析處理,不應也不能苛求其分析結(jié)果的完全準確,乃至于對于大數(shù)據(jù)所涉及的源數(shù)據(jù)對象,也無法要求其真實準確。
從源數(shù)據(jù)對象看,會包括微博數(shù)據(jù)、社交網(wǎng)絡數(shù)據(jù)、搜索引擎數(shù)據(jù)等,由于各種原因,數(shù)據(jù)中不可避免的會包括各種錯誤數(shù)據(jù)、無用數(shù)據(jù)。即使通過一定的數(shù)據(jù)清洗、數(shù)據(jù)過濾手段,也無法完全確保其真實性和正確性。但大數(shù)據(jù)的價值本來就在于從紛繁復雜的數(shù)據(jù)對象中發(fā)現(xiàn)有用的信息,去蕪存真本就是其要完成的過程性工作之一。所以,真實、準確只是一個相對的概念,要向之努力,但不能強求。