據(jù)市場(chǎng)研究公司IDC統(tǒng)計(jì),未來(lái)10年里預(yù)計(jì)數(shù)字信息總量將在2009年到2020年期間增長(zhǎng)44倍,全球數(shù)據(jù)使用量將達(dá)到大約35.2ZB(1ZB = 10億TB)。與此同時(shí),單個(gè)數(shù)據(jù)集的文件尺寸也將增加,導(dǎo)致對(duì)更大處理能力的需求以便分析和理解這些數(shù)據(jù)集。
一項(xiàng)由Unisphere Research對(duì)531名獨(dú)立Oracle用戶進(jìn)行的調(diào)查發(fā)現(xiàn),百分之九十的企業(yè)的數(shù)據(jù)量在迅速上漲,其中16%的企業(yè)每年的增長(zhǎng)率達(dá)到50%或更高。不少企業(yè)已經(jīng)感受到失控?cái)?shù)據(jù)增長(zhǎng)對(duì)績(jī)效造成的沖擊,其中發(fā)現(xiàn)87%的受訪者將企業(yè)的應(yīng)用程序性能問(wèn)題歸咎于不斷增長(zhǎng)的數(shù)據(jù)量。
為什么人們對(duì)大數(shù)據(jù)如此感興趣?大數(shù)據(jù)是一股突破性的經(jīng)濟(jì)和技術(shù)力量,它為IT支持引入了新的基礎(chǔ)架構(gòu)。大數(shù)據(jù)解決方案消除了傳統(tǒng)的計(jì)算和存儲(chǔ)的局限。借助于不斷增長(zhǎng)的私密和公開數(shù)據(jù),一種劃時(shí)代的新商業(yè)模式正在興起,它有望為大數(shù)據(jù)客戶帶來(lái)新的實(shí)質(zhì)性的收入增長(zhǎng)點(diǎn)以及富于競(jìng)爭(zhēng)力的優(yōu)勢(shì)。
大數(shù)據(jù)之華山論劍
盡管"Big Data"可以翻譯成大數(shù)據(jù)或者海量數(shù)據(jù),但大數(shù)據(jù)和海量數(shù)據(jù)是有區(qū)別的。Informatica中國(guó)區(qū)首席產(chǎn)品顧問(wèn)但彬認(rèn)為:"大數(shù)據(jù)"包含了"海量數(shù)據(jù)"的含義,而且在內(nèi)容上超越了海量數(shù)據(jù),簡(jiǎn)而言之,"大數(shù)據(jù)"是"海量數(shù)據(jù)"+復(fù)雜類型的數(shù)據(jù)。大數(shù)據(jù)包括交易和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集,其規(guī)?;驈?fù)雜程度超出了常用技術(shù)按照合理的成本和時(shí)限捕捉、管理及處理這些數(shù)據(jù)集的能力。大數(shù)據(jù)是由三項(xiàng)主要技術(shù)趨勢(shì)匯聚組成:海量交易數(shù)據(jù)、海量交互數(shù)據(jù)、海量數(shù)據(jù)處理。
EMC公司全球高級(jí)副總裁、大中華區(qū)總裁葉成輝在接受記者采訪時(shí)表示:大數(shù)據(jù)目前沒(méi)有統(tǒng)一的定義。通常認(rèn)為,它是海量的非結(jié)構(gòu)化數(shù)據(jù),其特點(diǎn)是數(shù)據(jù)量很大,數(shù)據(jù)的形式多樣化。
NetApp 大中華區(qū)總經(jīng)理陳文所理解的大數(shù)據(jù)包括A、B、C三個(gè)要素:大分析(Analytic),高帶寬(Bandwidth)和大內(nèi)容(Content)。
IBM用三個(gè)"V"來(lái)作為大數(shù)據(jù)的判斷依據(jù),只要滿足了其中的兩個(gè)即為大數(shù)據(jù):多樣性(variety)、體量(volume)和速度(velocity)。其中,多樣性是指,數(shù)據(jù)應(yīng)包含結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。體量是指聚合在一起供分析的數(shù)據(jù)量必須是非常龐大的。而速度則是指數(shù)據(jù)處理的速度必須很快。
對(duì)于大企業(yè)而言,大數(shù)據(jù)的興起部分是因?yàn)橛?jì)算能力可用更低的成本獲得,且各類系統(tǒng)如今已能夠執(zhí)行多任務(wù)處理。其次,內(nèi)存的成本也在直線下降,企業(yè)可以在內(nèi)存中處理比以往更多的數(shù)據(jù)。還有就是把計(jì)算機(jī)聚合成服務(wù)器集群越來(lái)越簡(jiǎn)單。IDC的數(shù)據(jù)庫(kù)管理分析師Carl Olofson認(rèn)為,這三大因素的結(jié)合便催生了大數(shù)據(jù)。
Olofson說(shuō),大數(shù)據(jù)"并非總是說(shuō)有數(shù)百個(gè)TB才算得上。根據(jù)實(shí)際使用情況,有時(shí)候數(shù)百個(gè)GB的數(shù)據(jù)也可稱為大數(shù)據(jù),這主要要看它的第三個(gè)維度,也就是速度或者時(shí)間維度。假如我能在1秒之內(nèi)分析處理300GB的數(shù)據(jù),而通常情況下卻需要花費(fèi)1個(gè)小時(shí)的話,那么這種巨大變化所帶來(lái)的結(jié)果就會(huì)增加極大的價(jià)值。所謂大數(shù)據(jù)技術(shù),就是至少實(shí)現(xiàn)這三個(gè)判據(jù)中的兩個(gè)的可承受得起的一種應(yīng)用。"
大數(shù)據(jù)意味著通過(guò)更快獲取信息來(lái)使做事情的方式變得與眾不同,并因此實(shí)現(xiàn)突破。大數(shù)據(jù)被定義為大量數(shù)據(jù)(通常是非結(jié)構(gòu)化的),它要求我們重新思考如何存儲(chǔ)、管理和恢復(fù)數(shù)據(jù)。那么,多大才算大呢?考慮這個(gè)問(wèn)題的一種方式就是,它是如此之大,以至于我們今天所使用的任何工具都無(wú)法處理它,因此,如何消化數(shù)據(jù)并把它轉(zhuǎn)化成有價(jià)值的洞見(jiàn)和信息,這其中的關(guān)鍵就是轉(zhuǎn)變。
總之,大數(shù)據(jù)已經(jīng)引起了各家IT廠商的關(guān)注,大數(shù)據(jù)備受關(guān)注的原因有兩個(gè),一個(gè)數(shù)據(jù)結(jié)構(gòu)復(fù)雜,數(shù)據(jù)挖掘過(guò)程困難;第二,數(shù)據(jù)量大,而且更新快,處理及時(shí)性要求特別高。