一、大數(shù)據(jù)出現(xiàn)的背景
進(jìn)入2012年,大數(shù)據(jù)(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。它已經(jīng)上過《紐約時報》《華爾街日報》的專欄封面,進(jìn)入美國白宮官網(wǎng)的新聞,現(xiàn)身在國內(nèi)一些互聯(lián)網(wǎng)主題的講座沙龍中,甚至被嗅覺靈敏的證券公司等寫進(jìn)了投資推薦報告。
數(shù) 據(jù)正在迅速膨脹并變大,它決定著企業(yè)的未來發(fā)展,雖然現(xiàn)在企業(yè)可能并沒有意識到數(shù)據(jù)爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識 到數(shù)據(jù)對企業(yè)的重要性。大數(shù)據(jù)時代對人類的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn),也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。
最 早提出大數(shù)據(jù)時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的 挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來?!薄按髷?shù)據(jù)”在物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域以及軍事、金融、通訊等行業(yè)存在已有時日, 卻因為近年來互聯(lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關(guān)注。
大數(shù)據(jù)在互聯(lián)網(wǎng)行業(yè)指的是這樣一種現(xiàn)象:互聯(lián)網(wǎng)公司在日常運(yùn)營中生成、累積的用戶網(wǎng)絡(luò)行為數(shù)據(jù)。這些數(shù)據(jù)的規(guī)模是如此龐大,以至于不能用G或T來衡量,大數(shù)據(jù)的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。
二、什么是大數(shù)據(jù)?
信息技術(shù)領(lǐng)域原先已經(jīng)有“海量數(shù)據(jù)”、“大規(guī)模數(shù)據(jù)”等概念,但這些概念只著眼于數(shù)據(jù)規(guī)模本身,未能充分反映數(shù)據(jù)爆發(fā)背景下的數(shù)據(jù)處理與應(yīng)用需求,而“大數(shù)據(jù)”這一新概念不僅指規(guī)模龐大的數(shù)據(jù)對象,也包含對這些數(shù)據(jù)對象的處理和應(yīng)用活動,是數(shù)據(jù)對象、技術(shù)與應(yīng)用三者的統(tǒng)一。
1、大數(shù)據(jù)(bigdata),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。大數(shù)據(jù)對象既可能是實際的、有限的數(shù)據(jù)集合,如某個政府部門或企業(yè)掌握的數(shù)據(jù)庫,也可能是虛擬的、無限的數(shù)據(jù)集合,如微博、微信、社交網(wǎng)絡(luò)上的全部信息。
大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。從數(shù)據(jù)的類別上看,“大數(shù)據(jù)”指的是無法使用傳統(tǒng)流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統(tǒng)處理方法的數(shù)據(jù)集。
亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)、 大數(shù)據(jù)科學(xué)家JohnRauser提到一個簡單的定義:大數(shù)據(jù)就是任何超過了一臺計算機(jī)處理能力的龐大數(shù)據(jù)量。研發(fā)小組對大數(shù)據(jù)的定義:“大數(shù)據(jù)是最大的 宣傳技術(shù)、是最時髦的技術(shù),當(dāng)這種現(xiàn)象出現(xiàn)時,定義就變得很混亂?!盞elly說:“大數(shù)據(jù)是可能不包含所有的 信息,但我覺得大部分是正確的。對大數(shù)據(jù)的一部分認(rèn)知在于,它是如此之大,分析它需要多個工作負(fù)載,這是AWS的定義。
2、大數(shù)據(jù)技術(shù),是指從各種各樣類型的大數(shù)據(jù)中,快速獲得有價值信息的技術(shù)的能力,包括數(shù)據(jù)采集、存儲、管理、分析挖掘、可視化等技術(shù)及其集成。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫,數(shù)據(jù)挖掘電網(wǎng),分布式文件系統(tǒng),分布式數(shù)據(jù)庫,云計算平臺,互聯(lián)網(wǎng),和可擴(kuò)展的存儲系統(tǒng)。
3、大數(shù)據(jù)應(yīng)用,是 指對特定的大數(shù)據(jù)集合,集成應(yīng)用大數(shù)據(jù)技術(shù),獲得有價值信息的行為。對于不同領(lǐng)域、不同企業(yè)的不同業(yè)務(wù),甚至同一領(lǐng)域不同企業(yè)的相同業(yè)務(wù)來說,由于其業(yè)務(wù) 需求、數(shù)據(jù)集合和分析挖掘目標(biāo)存在差異,所運(yùn)用的大數(shù)據(jù)技術(shù)和大數(shù)據(jù)信息系統(tǒng)也可能有著相當(dāng)大的不同。惟有堅持“對象、技術(shù)、應(yīng)用”三位一體同步發(fā)展,才 能充分實現(xiàn)大數(shù)據(jù)的價值。
當(dāng)你的技術(shù)達(dá)到極限時,也就是數(shù)據(jù)的極限”。大數(shù)據(jù)不是關(guān)于如何定義,最重要的是如何使用。最大的挑戰(zhàn)在于哪些技術(shù)能更好的使用數(shù)據(jù)以及大數(shù)據(jù)的應(yīng)用情況如何。這與傳統(tǒng)的數(shù)據(jù)庫相比,開源的大數(shù)據(jù)分析工具的如Hadoop的崛起,這些非結(jié)構(gòu)化的數(shù)據(jù)服務(wù)的價值在哪里。