企業(yè)數(shù)據(jù)量在不斷攀升的今天,被越來越多的人所提及,并經(jīng)常和云計(jì)算聯(lián)系在一起。隨著企業(yè)用戶對(duì)大數(shù)據(jù)的認(rèn)識(shí)日漸成熟,大數(shù)據(jù)的規(guī)模已從數(shù)十TB發(fā)展成十幾PB級(jí)的數(shù)據(jù)規(guī)模。對(duì)于企業(yè)來說,目前大數(shù)據(jù)有4個(gè)V的特點(diǎn)值得關(guān)注:海量數(shù)據(jù)Volume、規(guī)模化Velocity、多樣化Variety和數(shù)據(jù)價(jià)值Value。
大數(shù)據(jù)無疑將給人類社會(huì)帶來巨大的價(jià)值。科研機(jī)構(gòu)可以通過大數(shù)據(jù)業(yè)務(wù)協(xié)助進(jìn)行研究探索,如環(huán)境、資源、能源、氣象、航天、生命等領(lǐng)域的探索。大數(shù)據(jù)正在影響企業(yè)商業(yè)模式的轉(zhuǎn)變,對(duì)數(shù)據(jù)進(jìn)行分析、優(yōu)化正成為提升核心競(jìng)爭(zhēng)力的有效方式。
IDC數(shù)字宇宙研究《從混沌中提取價(jià)值》指出,全球的數(shù)據(jù)量每?jī)赡攴环?011年創(chuàng)建和復(fù)制的數(shù)據(jù)量為1.8ZB(1ZB=10^6PB),這種增長(zhǎng)還在加速,預(yù)計(jì)2015年將達(dá)到近8ZB。實(shí)際上,不能簡(jiǎn)單地以數(shù)據(jù)規(guī)模來界定大數(shù)據(jù),而要考慮滿足用戶需求的數(shù)據(jù)處理與分析的復(fù)雜程度。針對(duì)簡(jiǎn)單的用戶需求,數(shù)據(jù)量為TB至PB級(jí)時(shí)可稱為大數(shù)據(jù);而針對(duì)復(fù)雜的用戶需求,數(shù)據(jù)量為GB至TB級(jí)時(shí)即可成為大數(shù)據(jù)。
根據(jù)信息爆炸時(shí)代的特征,業(yè)界將大數(shù)據(jù)總結(jié)為“4V”體量(Volume)、多樣性(Variety)、速度(Velocity)和價(jià)值(Value)。體量是指聚合在一起共分析的數(shù)據(jù)量必須是非常龐大的。無所不在的移動(dòng)設(shè)備、無線傳感器每分每秒都在產(chǎn)生數(shù)據(jù),數(shù)以億計(jì)用戶的互聯(lián)網(wǎng)服務(wù)時(shí)時(shí)刻刻在產(chǎn)生巨量的交互。
多樣化(Variety)是指數(shù)據(jù)類型的復(fù)雜性。就是各種各樣類型的數(shù)據(jù),過去的數(shù)據(jù)更多的是結(jié)構(gòu)化的,現(xiàn)在越來越多的數(shù)據(jù)是半結(jié)構(gòu),甚至是完全沒有結(jié)構(gòu)的數(shù)據(jù),從企業(yè)里來的、從互聯(lián)網(wǎng)來的,從用戶來的各種各樣的數(shù)據(jù)都大量進(jìn)入我們的服務(wù)器、進(jìn)入數(shù)據(jù)中心,所以這里面產(chǎn)生了很多的挑戰(zhàn),這么多數(shù)據(jù)怎么樣把它變成信息,怎么樣把信息變成知識(shí),把知識(shí)變成決策,這就需要有更多的很好的數(shù)據(jù)處理能力。
速度(Velocity)是指數(shù)據(jù)處理的速度必須滿足實(shí)時(shí)性要求。數(shù)據(jù)量增長(zhǎng)越來越快,需要處理的速度和響應(yīng)的時(shí)間越來越快,對(duì)系統(tǒng)的延時(shí)要求相當(dāng)高。
IDC研究表明,數(shù)字領(lǐng)域存在著1.8萬億GB的數(shù)據(jù)。企業(yè)數(shù)據(jù)正在以55%的速度逐年增長(zhǎng)。預(yù)計(jì)未來5年,大多數(shù)的數(shù)據(jù)倉(cāng)庫(kù)將采用列式存儲(chǔ)技術(shù)。