美國社會思想家托夫勒在 《第三次浪潮》中提出,“如果說IBM的主機(jī)拉開了信息化革命的大幕,那么‘大數(shù)據(jù)’才是第三次浪潮的華彩樂章。”大數(shù)據(jù)以其“淺顯易懂”的概念、廣泛的潛在應(yīng)用需求和可展望的巨大經(jīng)濟(jì)社會效益,正成為繼云計算、物聯(lián)網(wǎng)之后信息技術(shù)領(lǐng)域的又一熱點,并將在社會經(jīng)濟(jì)各領(lǐng)域產(chǎn)生深刻影響。 更多詳細(xì)信息,請您微信關(guān)注“計算網(wǎng)”公眾號:
麥肯錫全球研究院 (MGI)于2011年6月發(fā)布了題為《大數(shù)據(jù):下一個創(chuàng)新、競爭和生產(chǎn)力的前沿》的研究報告,最早提出“大數(shù)據(jù)時代已經(jīng)到來”,并從經(jīng)濟(jì)角度引發(fā)全球?qū)Υ髷?shù)據(jù)的關(guān)注。報告指出,當(dāng)前大數(shù)據(jù)規(guī)模以及其存儲容量正在迅速增長,已經(jīng)滲透到各個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為可以與物質(zhì)資產(chǎn)和人力資本相提并論的重要的生產(chǎn)要素。大數(shù)據(jù)是繼傳統(tǒng)IT之后下一個提高生產(chǎn)率的技術(shù)前沿。只要具有適當(dāng)?shù)恼咄苿?,大?shù)據(jù)的使用將成為未來提高競爭力、生產(chǎn)力、創(chuàng)新能力以及創(chuàng)造消費(fèi)者盈余的關(guān)鍵要素,成為領(lǐng)軍企業(yè)與其他企業(yè)之間最大的顯著差別。那些沒有引入新的分析技術(shù)和新的數(shù)據(jù)類型的企業(yè),不太可能成為其行業(yè)的領(lǐng)軍者。
2012年3月,美國奧巴馬政府宣布推出 “大數(shù)據(jù)的研究和發(fā)展計劃”。該計劃涉及美國國家科學(xué)基金、美國國家衛(wèi)生研究院、美國能源部、美國國防部、美國國防部高級研究計劃局、美國地質(zhì)勘探局等6個聯(lián)邦政府部門,承諾將投資兩億多美元,大力推動和改善與大數(shù)據(jù)相關(guān)的收集、組織和分析工具及技術(shù),以推進(jìn)從大量的、復(fù)雜的數(shù)據(jù)集合中獲取知識和洞見的能力。美國奧巴馬政府宣布投資大數(shù)據(jù)領(lǐng)域,是大數(shù)據(jù)從商業(yè)行為上升到國家戰(zhàn)略的分水嶺,表明大數(shù)據(jù)正式提升到戰(zhàn)略層面,大數(shù)據(jù)在經(jīng)濟(jì)社會各個層面、各個領(lǐng)域都開始受到重視。
大數(shù)據(jù)的三重內(nèi)涵
大數(shù)據(jù)在業(yè)內(nèi)并沒有統(tǒng)一的定義。不同廠商、不同用戶,站的角度不同,對大數(shù)據(jù)的理解也不一樣。麥肯錫報告中對大數(shù)據(jù)的基本定義是:大數(shù)據(jù)是指其大小超出了典型數(shù)據(jù)庫軟件的采集、儲存、管理和分析等能力的數(shù)據(jù)集合。賽迪智庫指出,大數(shù)據(jù)是一個相對的概念,并沒有一個嚴(yán)格的標(biāo)準(zhǔn)限定多大規(guī)模的數(shù)據(jù)集合才稱得上是大數(shù)據(jù)。事實上,隨著時間推移和數(shù)據(jù)管理與處理技術(shù)的進(jìn)步,符合大數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)集合的規(guī)模也在并將繼續(xù)增長。同時,對于不同行業(yè)領(lǐng)域和不同應(yīng)用而言,“大數(shù)據(jù)”的規(guī)模也不統(tǒng)一。
雖然“大數(shù)據(jù)”直接代表的是數(shù)據(jù)集合這一靜態(tài)對象,但賽迪智庫經(jīng)過深入研究認(rèn)為,目前所提到的“大數(shù)據(jù)”,并不僅僅是大規(guī)模數(shù)據(jù)集合本身,而應(yīng)當(dāng)是數(shù)據(jù)對象、技術(shù)與應(yīng)用三者的統(tǒng)一:
1.從對象角度看,大數(shù)據(jù)是大小超出典型數(shù)據(jù)庫軟件采集、儲存、管理和分析等能力的數(shù)據(jù)集合。需要注意的是,大數(shù)據(jù)并非大量數(shù)據(jù)簡單、無意義的堆積,數(shù)據(jù)量大并不意味著一定具有可觀的利用前景。由于最終目標(biāo)是從大數(shù)據(jù)中獲取更多有價值的“新”信息,所以必然要求這些大量的數(shù)據(jù)之間存在著或遠(yuǎn)或近、或直接或間接的關(guān)聯(lián)性,才具有相當(dāng)?shù)姆治鐾诰騼r值。數(shù)據(jù)間是否具有結(jié)構(gòu)性和關(guān)聯(lián)性,是 “大數(shù)據(jù)”與“大規(guī)模數(shù)據(jù)”的重要差別。
2.從技術(shù)角度看,大數(shù)據(jù)技術(shù)是從各種各樣類型的大數(shù)據(jù)中,快速獲得有價值信息的技術(shù)及其集成?!?/strong>大數(shù)據(jù)”與“大規(guī)模數(shù)據(jù)”、“海量數(shù)據(jù)”等類似概念間的最大區(qū)別,就在于“大數(shù)據(jù)”這一概念中包含著對數(shù)據(jù)對象的處理行為。為了能夠完成這一行為,從大數(shù)據(jù)對象中快速挖掘更多有價值的信息,使大數(shù)據(jù)“活起來”,就需要綜合運(yùn)用靈活的、多學(xué)科的方法,包括數(shù)據(jù)聚類、數(shù)據(jù)挖掘、分布式處理等,而這就需要擁有對各類技術(shù)、各類軟硬件的集成應(yīng)用能力??梢?,大數(shù)據(jù)技術(shù)是使大數(shù)據(jù)中所蘊(yùn)含的價值得以發(fā)掘和展現(xiàn)的重要工具。
3.從應(yīng)用角度看,大數(shù)據(jù)是對特定的大數(shù)據(jù)集合、集成應(yīng)用大數(shù)據(jù)技術(shù)、獲得有價值信息的行為。正由于與具體應(yīng)用緊密聯(lián)系,甚至是一對一的聯(lián)系,才使得“應(yīng)用”成為大數(shù)據(jù)不可或缺的內(nèi)涵之一。
需要明確的是,大數(shù)據(jù)分析處理的最終目標(biāo),是從復(fù)雜的數(shù)據(jù)集合中發(fā)現(xiàn)新的關(guān)聯(lián)規(guī)則,繼而進(jìn)行深度挖掘,得到有效用的新信息。如果數(shù)據(jù)量不小,但數(shù)據(jù)結(jié)構(gòu)簡單,重復(fù)性高,分析處理需求也僅僅是根據(jù)已有規(guī)則進(jìn)行數(shù)據(jù)分組歸類,未與具體業(yè)務(wù)緊密結(jié)合,依靠已有基本數(shù)據(jù)分析處理技術(shù)已足夠,則不能算作是完全的“大數(shù)據(jù)”,只是“大數(shù)據(jù)”的初級發(fā)展階段。