最近,我回國參加了一些大學(xué)的研討會(huì)、政府部門的座談會(huì)以及企業(yè)的培訓(xùn)活動(dòng),主題都是大數(shù)據(jù),時(shí)下,國內(nèi)各大報(bào)刊雜志也都在探討這個(gè)熱門話題,但我發(fā)現(xiàn),中國社會(huì)對“大數(shù)據(jù)”的概念還存在一些不準(zhǔn)確的認(rèn)識甚至觀念上的誤區(qū),特別是對大數(shù)據(jù)在國家層面上的戰(zhàn)略意義估計(jì)不足,亟須深化。
從小數(shù)據(jù)到大數(shù)據(jù)
“大數(shù)據(jù)”是一股新的技術(shù)浪潮,也是逐步形成的歷史現(xiàn)象,其具體是指隨著信息存貯量的增多,人類在實(shí)踐中逐漸認(rèn)識到,通過數(shù)據(jù)的開放、整合和分析,能發(fā)現(xiàn)新的知識、創(chuàng)造新的價(jià)值,從而為社會(huì)帶來“大科技”、“大利潤”、“大智能”和“大發(fā)展”等新的機(jī)遇。大數(shù)據(jù)概念的提出,可以追溯到1980年代,但其“數(shù)據(jù)”二字卻和我們傳統(tǒng)的理解有所不同。
傳統(tǒng)意義上的“數(shù)據(jù)”,是指“有根據(jù)的數(shù)字”,但在進(jìn)入信息時(shí)代之后,“數(shù)據(jù)”二字的內(nèi)涵在擴(kuò)大,它不僅指代“數(shù)字”,還統(tǒng)稱一切保存在電腦中的信息,包括文本、聲音、視頻等。更重要的是,隨著信息技術(shù)的進(jìn)步,其數(shù)量在爆炸,特別是新媒體出現(xiàn)之后,數(shù)據(jù)的收集、保存、維護(hù)、使用等任務(wù),成為橫跨各個(gè)領(lǐng)域的現(xiàn)象和挑戰(zhàn)。
大數(shù)據(jù)之“大”,并不在于其表面的“大容量”,而在于其潛在的“大價(jià)值”。有很多例子可以證明,由于新工具的出現(xiàn),我們從以前的小數(shù)據(jù)當(dāng)中也能發(fā)現(xiàn)大的價(jià)值。例如,美國把二十多年的犯罪數(shù)據(jù)和交通事故數(shù)據(jù)映射到同一張地圖上后驚奇地發(fā)現(xiàn),無論是交通事故和犯罪活動(dòng)的高發(fā)地帶,還是兩者的頻發(fā)時(shí)段,都有高度的重合性。這引發(fā)了美國公路安全部門與司法部門的聯(lián)合執(zhí)勤,通過共治數(shù)據(jù)“黑點(diǎn)”,交通事故率和犯罪率雙雙降了下來。再例如,最近有學(xué)者將白宮200多年總統(tǒng)洗衣服的記錄電子化,然后進(jìn)行分析,也得出了一些新的結(jié)論。這些數(shù)據(jù),都是地道的小數(shù)據(jù)。這說明,小數(shù)據(jù)只要在縱向上有一定的時(shí)間積累,在橫向上有細(xì)致的記錄粒度,再和其他數(shù)據(jù)整合,就能產(chǎn)生大的價(jià)值。從這個(gè)角度來看,大數(shù)據(jù)也可以理解為針對某個(gè)對象在時(shí)空兩個(gè)維度上的“全息”數(shù)據(jù)。這種“全息”,在大數(shù)據(jù)的時(shí)代還表現(xiàn)為“多源”,即有多個(gè)源頭在從不同方向?qū)ν粋€(gè)對象進(jìn)行數(shù)據(jù)記錄,數(shù)據(jù)之間互相印證。
另外,從全球數(shù)據(jù)技術(shù)投入的資金分布來看,傳統(tǒng)的小數(shù)據(jù)仍然占據(jù)絕對的重頭。據(jù)國際數(shù)據(jù)集團(tuán)(IDG)統(tǒng)計(jì),2012年,全球?qū)π?shù)據(jù)分析工具的投資為349億美元,而對大數(shù)據(jù)分析工具Hadoop的投資僅為1.3億美元,不及前者的1%.IDG的結(jié)論是,傳統(tǒng)的小數(shù)據(jù)軟件滿足了企業(yè)和組織95%的需求。目前行業(yè)發(fā)展的最新態(tài)勢,是“大”、“小”數(shù)據(jù)分析工具趨于一體化并在向“云”遷徙。
大數(shù)據(jù)的戰(zhàn)略意義
大數(shù)據(jù)的意義,也遠(yuǎn)遠(yuǎn)不局限于我們當(dāng)前眾多新聞報(bào)道中所津津樂道的“啤酒和尿布”等通過數(shù)據(jù)挖掘、實(shí)現(xiàn)精準(zhǔn)營銷的故事。事實(shí)上,數(shù)據(jù)挖掘已經(jīng)不是大數(shù)據(jù)領(lǐng)域的前沿,取而代之的是機(jī)器學(xué)習(xí)。數(shù)據(jù)挖掘是指通過特定的算法對大量的數(shù)據(jù)進(jìn)行自動(dòng)分析,從而揭示數(shù)據(jù)當(dāng)中隱藏的歷史規(guī)律和未來的發(fā)展趨勢,為決策者提供參考。時(shí)下興起的機(jī)器學(xué)習(xí),憑借的也是計(jì)算機(jī)算法,但和數(shù)據(jù)挖掘相比,其算法不是固定的,而是帶有自調(diào)適參數(shù)的,也就是說,它能夠隨著計(jì)算、運(yùn)行次數(shù)的增多,即通過給機(jī)器“喂取”數(shù)據(jù),讓機(jī)器像人一樣通過學(xué)習(xí)逐步自我提高改善,使挖掘和預(yù)測的功能更為準(zhǔn)確。這也是該技術(shù)被命名為“機(jī)器學(xué)習(xí)”的原因。這也是大數(shù)據(jù)之所以被稱為革命性現(xiàn)象的根本原因,因?yàn)閺谋举|(zhì)上來說,它標(biāo)志著我們?nèi)祟惿鐣?huì)在從信息時(shí)代經(jīng)由知識時(shí)代快速向智能時(shí)代邁進(jìn)。
不妨舉一兩個(gè)例子,來說明大數(shù)據(jù)對社會(huì)形態(tài)的影響以及對國家戰(zhàn)略的重要性。
今年以來,一股在線教育的浪潮正在席卷美國的教育領(lǐng)域,一種新型的智能學(xué)習(xí)平臺正在成為高科技領(lǐng)域創(chuàng)新和投資的重點(diǎn),其中不少公司已經(jīng)獲得了初步成功。如著名的在線教育公司Coursera,已經(jīng)和普林斯頓、伯克利、杜克、香港理工等全世界30多所大學(xué)達(dá)成協(xié)議,通過其平臺免費(fèi)開放課程。如今這些學(xué)校的課程可以實(shí)現(xiàn)全球幾十萬人同步學(xué)習(xí)。分布在世界各地的學(xué)習(xí)者不僅可以在同一時(shí)間聽取同一位老師的授課,還和在校生一樣,做同樣的作業(yè)、接受同樣的評分和考試。一些學(xué)校看到了這種智能學(xué)習(xí)平臺的價(jià)值和潛力,甚至開始投資興建自己的獨(dú)立平臺,2012年5月,哈佛大學(xué)與麻省理工學(xué)院就宣布,將投入6000萬美元開發(fā)一個(gè)類似平臺,并向全世界免費(fèi)開放。