我們都聽說過如下的預(yù)測(cè):到2020年,全球以電子形式存儲(chǔ)的數(shù)據(jù)量將達(dá)到35ZB,是2009年全球存儲(chǔ)量的40倍。而在2010年底,根據(jù)IDC的統(tǒng)計(jì),全球數(shù)據(jù)量已經(jīng)達(dá)到了120萬(wàn)PB,或1.2ZB。如果將這些數(shù)據(jù)都刻錄在DVD上,那么光把這些DVD盤片堆疊起來就可以從地球壘到月球一個(gè)來回(單程約24萬(wàn)英里)。
對(duì)于動(dòng)不動(dòng)就憂天的杞人來說,如此龐大的數(shù)字可能是不詳?shù)?,預(yù)示著世界末日的來臨。而對(duì)于樂觀主義者來說,這些數(shù)字卻是一座信息金礦,隨著技術(shù)的進(jìn)步,其中所蘊(yùn)含的財(cái)富會(huì)越來越容易被挖掘出來。
進(jìn)入“大數(shù)據(jù)”時(shí)代,出現(xiàn)了不少新興的數(shù)據(jù)挖掘技術(shù),使得對(duì)數(shù)據(jù)財(cái)富的儲(chǔ)存、處理和分析變得比以往任何時(shí)候都更便宜、更快速了。只要有了超級(jí)計(jì)算環(huán)境,那么大數(shù)據(jù)技術(shù)就能被眾多的企業(yè)所用,從而改變很多行業(yè)經(jīng)營(yíng)業(yè)務(wù)的的方式。
我們對(duì)大數(shù)據(jù)的定義是:利用一些非傳統(tǒng)的數(shù)據(jù)篩選工具(包括但不限于Hadoop)對(duì)大量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集合進(jìn)行挖掘,以便提供有用的數(shù)據(jù)洞察。
大數(shù)據(jù)的概念和“云計(jì)算”一樣,也存在著很多的炒作和大量的不確定性。為此,我們咨詢了多位分析師和研究大數(shù)據(jù)的專家,讓他們解釋大數(shù)據(jù)是什么和不是什么,以及大數(shù)據(jù)對(duì)于數(shù)據(jù)挖掘的未來究竟意味著什么等諸多問題。
大數(shù)據(jù)的發(fā)展背景
對(duì)大企業(yè)而言,大數(shù)據(jù)的興起部分是因?yàn)橛?jì)算能力可用更低的成本獲得,且各類系統(tǒng)如今已能夠執(zhí)行多任務(wù)處理。其次,內(nèi)存的成本也在直線下降,企業(yè)可以在內(nèi)存中處理比以往更多的數(shù)據(jù)。還有就是把計(jì)算機(jī)聚合成服務(wù)器集群越來越簡(jiǎn)單。IDC的數(shù)據(jù)庫(kù)管理分析師Carl Olofson認(rèn)為,這三大因素的結(jié)合便催生了大數(shù)據(jù)。
“我們不但能夠把這些事情做好,而且能夠以更低廉的成本去做這些事情,”他說。“過去有些大型超級(jí)計(jì)算機(jī)就曾涉足過繁重的多處理系統(tǒng),一起構(gòu)建成緊密聚合的集群,但由于都是專門設(shè)計(jì)的硬件,所以其成本動(dòng)輒數(shù)十萬(wàn)甚至數(shù)百萬(wàn)美元。而現(xiàn)在,我們利用普通的商品化硬件也能獲得同樣的計(jì)算能力。這便幫助我們能夠更快、更便宜地處理更多的數(shù)據(jù)。”
當(dāng)然,并非所有擁有龐大數(shù)據(jù)倉(cāng)庫(kù)的企業(yè)都可以說他們正在使用大數(shù)據(jù)技術(shù)。IDC認(rèn)為,某項(xiàng)技術(shù)要想成為大數(shù)據(jù)技術(shù),首先必須是成本可承受的,其次是必須滿足IBM所描述的三個(gè)“V”判據(jù)中的兩個(gè):多樣性(variety)、體量(volume)和速度(velocity)。
多樣性是指,數(shù)據(jù)應(yīng)包含結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。體量是指聚合在一起供分析的數(shù)據(jù)量必須是非常龐大的。而速度則是指數(shù)據(jù)處理的速度必須很快。Olofson說,大數(shù)據(jù)“并非總是說有數(shù)百個(gè)TB才算得上。根據(jù)實(shí)際使用情況,有時(shí)候數(shù)百個(gè)GB的數(shù)據(jù)也可稱為大數(shù)據(jù),這主要要看它的第三個(gè)維度,也就是速度或者時(shí)間維度。假如我能在1秒之內(nèi)分析處理300GB的數(shù)據(jù),而通常情況下卻需要花費(fèi)1個(gè)小時(shí)的話,那么這種巨大變化所帶來的結(jié)果就會(huì)增加極大的價(jià)值。所謂大數(shù)據(jù)技術(shù),就是至少實(shí)現(xiàn)這三個(gè)判據(jù)中的兩個(gè)的可承受得起的一種應(yīng)用。”
與開源之關(guān)系
“很多人都認(rèn)為,Hadoop和大數(shù)據(jù)是同義詞。但這是個(gè)錯(cuò)誤,”Olofson解釋說。例如Teradata、MySQL和一些“聰明的集群技術(shù)”的實(shí)施案例都沒有使用Hadoop,但也被認(rèn)為是大數(shù)據(jù)的實(shí)施案例。
作為大數(shù)據(jù)的一種應(yīng)用環(huán)境,Hadoop之所以能夠引起人們的注意,是因?yàn)樗腔贛apReduce環(huán)境的,這是超算圈里很常用的一種簡(jiǎn)化環(huán)境,主要是由谷歌所創(chuàng)建的一個(gè)項(xiàng)目。Hadoop是和各種Apache項(xiàng)目密切相關(guān)的混合實(shí)施環(huán)境,其中包含了在MapReduce環(huán)境下所創(chuàng)建的HBase數(shù)據(jù)庫(kù)。
軟件開發(fā)人員一般會(huì)用一切利用到Hadoop以及相似的高級(jí)技術(shù)的手段來響應(yīng)——而這些技術(shù)很多都是在開源社區(qū)里開發(fā)的。“他們創(chuàng)建了一個(gè)令人眼花繚亂、變化多端的東西,即所謂的NoSQL數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)的鍵值多數(shù)都已利用了各種技術(shù)在處理能力、多樣化,或者數(shù)據(jù)庫(kù)規(guī)模上做了優(yōu)化的,”Olofson說。
開源技術(shù)一般是沒有商業(yè)支持的,“所以這些東西還必須讓其進(jìn)化一段時(shí)間,逐漸剔除各種缺陷,而這一般需要數(shù)年的時(shí)間。這就是說,羽毛未豐的大數(shù)據(jù)技術(shù)目前還無法在普通市場(chǎng)上普及。”與此同時(shí),IDC預(yù)計(jì)至少有三家商業(yè)廠商會(huì)在年底之前對(duì)Hadoop提供某種類型的支持服務(wù)。還有其他一些廠商,如Datameer等,也會(huì)提供帶有Hadoop組件的分析工具,允許企業(yè)開發(fā)他們自己的應(yīng)用。例如Cloudera和Tableau等已經(jīng)在其產(chǎn)品中用到了Hadoop。
升級(jí)關(guān)系型數(shù)據(jù)庫(kù)
行業(yè)觀察家們一般都贊成在升級(jí)關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)時(shí)也要考慮大數(shù)據(jù)技術(shù)。Olofson說,“大數(shù)據(jù)技術(shù)適用于速度更快、規(guī)模更大、成本更低廉的場(chǎng)合。”比如Teradata就把它的系統(tǒng)做得成本更低廉、具備可擴(kuò)展性和集群環(huán)境。
然而還有些人則不這么認(rèn)為。Gartner的數(shù)據(jù)管理分析師Marcus Collins說,“通常在使用RDBMS時(shí),都要用到BI工具,但這種處理流程并非真的大數(shù)據(jù)。這種流程由來已久。”
那么,誰(shuí)會(huì)真正用到大數(shù)據(jù)分析呢?
一年前,大數(shù)據(jù)技術(shù)的一些主要用戶是大型Web企業(yè),例如Facebook和雅虎,它們需要分析點(diǎn)擊流數(shù)據(jù)。但是今天,“大數(shù)據(jù)技術(shù)已經(jīng)超出了Web,是要是有大量數(shù)據(jù)需要處理的企業(yè)都有可能用到它。”例如銀行、公用事業(yè)機(jī)構(gòu)、情報(bào)部門等都在搭乘大數(shù)據(jù)這輛車。
實(shí)際上,一些大數(shù)據(jù)技術(shù)已經(jīng)被一些擁有很前衛(wèi)技術(shù)的企業(yè)在使用了,比如受社交媒體推動(dòng)而需要?jiǎng)?chuàng)建相應(yīng)Web服務(wù)的企業(yè)。它們對(duì)于大數(shù)據(jù)項(xiàng)目的貢獻(xiàn)非常重要。
而在其他垂直行業(yè)中,有些企業(yè)正在意識(shí)到,它們基于信息服務(wù)的價(jià)值定位要比它們先前想象的要大得多,所以大數(shù)據(jù)技術(shù)很快就吸引了這些企業(yè)的注意。再加上硬件和軟件成本的下降,這些企業(yè)發(fā)現(xiàn)它們已經(jīng)處在了一場(chǎng)企業(yè)大轉(zhuǎn)型機(jī)遇的完美風(fēng)暴中。
紐約城的TRA公司是專門幫助電視廣告主們?cè)u(píng)測(cè)其所投放的電視廣告的效果的,它會(huì)把某個(gè)家庭通過電視與DVR(數(shù)字錄像機(jī))所接收到的廣告與其在零售商店的賬單相比對(duì)。該公司從有線電視公司的DVR以及一些日用品商店的會(huì)員卡計(jì)劃中搜集數(shù)據(jù),來進(jìn)行這種比對(duì)。TRA的大數(shù)據(jù)系統(tǒng)所處理的數(shù)據(jù)量代表著170萬(wàn)個(gè)家庭以秒計(jì)的觀看習(xí)慣——如此龐大的任務(wù)量如果沒有大數(shù)據(jù)技術(shù)幾乎無法完成。該公司部署了Kognitia的WX2數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)允許它快速地裝載、描述和分析數(shù)據(jù),從DVR上收集細(xì)粒度的廣告觀看信息,fran后與銷售點(diǎn)的詳細(xì)數(shù)據(jù)進(jìn)行比對(duì),再生成定制報(bào)告。
“Kognitia有一個(gè)內(nèi)存運(yùn)行的解決方案,所以我們現(xiàn)有整個(gè)數(shù)據(jù)庫(kù)的一半都可以放在內(nèi)存里,這就是說當(dāng)我們的客戶需要運(yùn)行一個(gè)查詢時(shí),響應(yīng)時(shí)間是秒級(jí)而非小時(shí)級(jí)或日級(jí)的,”TRA的CEO Mark Lieberman說。
該數(shù)據(jù)庫(kù)可以在普通硬件上運(yùn)行,TRA自己的前端應(yīng)用就是在.Net Visual Studio上構(gòu)建的。“我們還會(huì)用到一點(diǎn)點(diǎn)MySQL,而用戶界面則是用DevExpress開發(fā)的,”Lieberman說。
在他看來,大數(shù)據(jù)技術(shù)可能會(huì)給全美700億美元的電視廣告市場(chǎng)帶來革命性的變化。傳統(tǒng)的廣告評(píng)測(cè)方法頂多只能在全國(guó)2萬(wàn)個(gè)樣本家庭中安裝特制的機(jī)頂盒來分析抽樣數(shù)據(jù)。而今天,大數(shù)據(jù)技術(shù)則可以分析來自250萬(wàn)臺(tái)DVR和機(jī)頂盒的實(shí)際數(shù)據(jù)。
Aberdeen集團(tuán)的分析師Greg Belkin認(rèn)為,TRA和其他一些公司所使用的大數(shù)據(jù)工具滿足了大數(shù)據(jù)的速度、體量和多樣性判據(jù)。“在零售業(yè),大數(shù)據(jù)給人的印象十分深刻,因?yàn)檫@個(gè)行業(yè)有非常多的需要分析數(shù)據(jù)的地方,但是按照傳統(tǒng)手段那是無法想象的,”比如社交媒體網(wǎng)站、DVR設(shè)備和日用品商店的會(huì)員卡數(shù)據(jù)等。“這個(gè)行業(yè)的數(shù)據(jù)室如此的龐大和復(fù)雜,利用傳統(tǒng)的數(shù)據(jù)庫(kù)手段根本不可能進(jìn)行分析,所以零售商們正在轉(zhuǎn)向大數(shù)據(jù)平臺(tái)。”
同樣的,大數(shù)據(jù)技術(shù)也給弗羅里達(dá)圣彼得斯堡的Catalina市場(chǎng)營(yíng)銷公司帶來了革命性的變化。這家公司所擁有的會(huì)員客戶數(shù)據(jù)庫(kù)十分龐大,規(guī)模有2.5PB,其中包括了1.9億家美國(guó)日用品商店多年來的歷史銷售數(shù)據(jù)。它的最大的一個(gè)數(shù)據(jù)庫(kù)就有令人難以置信的4.25億行數(shù)據(jù),公司每天需要在這個(gè)數(shù)據(jù)庫(kù)中管理大約6.25億行數(shù)據(jù)。
通過分析這些數(shù)據(jù),Catalina可幫助一些主要的消費(fèi)品制造商和大型連鎖超市預(yù)測(cè)消費(fèi)者可能會(huì)購(gòu)買什么商品,以及誰(shuí)會(huì)對(duì)新的商品感興趣等。
“我們是希望把技術(shù)帶給數(shù)據(jù),而不是把數(shù)據(jù)帶給技術(shù),”Catalina的執(zhí)行副總裁兼CIO Eric Williams說。“一些現(xiàn)有的技術(shù)就可以讓比如SAS公司把它們的分析技術(shù)用于數(shù)據(jù)庫(kù)。這就極大地改變了它們的整個(gè)業(yè)務(wù)。我們先前也在做這些事情,但是由于技術(shù)上的嚴(yán)重限制,使我們無法實(shí)現(xiàn)我們想要實(shí)現(xiàn)的目標(biāo)。我們只好用自己研發(fā)的一些工具,而這些工具能夠?qū)崿F(xiàn)的東西也是非常有限的。而大數(shù)據(jù)技術(shù)的出現(xiàn)則徹底改變了我們的整個(gè)企業(yè)。”
除了在其專有的系統(tǒng)中用到了一些開源軟件以外,Catalina還在Netezza數(shù)據(jù)倉(cāng)庫(kù)設(shè)備平臺(tái)上使用了SAS的分析工具。
大數(shù)據(jù)正在從根本上改變著美國(guó)銀行業(yè)做業(yè)務(wù)的方式。美國(guó)銀行負(fù)責(zé)大數(shù)據(jù)與分析的前執(zhí)行董事Abhishek Mehta在2010年10月的Hadoop World大會(huì)上說,“我覺得今天的Hadoop很像20年前的Linux。我們所有人都看到了Linux在企業(yè)軟件市場(chǎng)上的成功。Hadoop也將會(huì)取得同樣的成功。它的成功只是個(gè)時(shí)間問題而已。”
在分析點(diǎn)擊流數(shù)據(jù)和交易數(shù)據(jù)之外,Hadoop還可以讓美國(guó)銀行快速地解決各種業(yè)務(wù)問題。“作為銀行來說,我能想到的就是如何消除客戶的欺詐行為,”Mehta說。“現(xiàn)在,我可以建立一個(gè)模型,為每個(gè)客戶回溯過去5年間的每一次欺詐事件。而在此之前,我們只能采取抽樣的辦法,建立一個(gè)模型,當(dāng)發(fā)現(xiàn)有某個(gè)特例不適合這種模型時(shí),還需要重新建模。這樣的日子終于結(jié)束了。”
公用事業(yè)行業(yè)也在剛剛開始了解到大數(shù)據(jù)所帶來的應(yīng)用及其價(jià)值。美國(guó)中西部的一家電力公司利用Hadoop分析來自智能電表的數(shù)據(jù),這些智能電表可以自動(dòng)完成計(jì)費(fèi)功能,但是該公司還收集輸電線路上任意的電流波動(dòng)信息。“如果收集到這些信息并且能夠描繪出電流變化圖,那么你就可以在某個(gè)地方的變壓器可能出現(xiàn)故障之前找到它,”Olofson說。“或者當(dāng)發(fā)生停電事故時(shí),會(huì)引起電流的波動(dòng),公司就可以探測(cè)到波動(dòng)之處,在用戶打電話求助之前就采取行動(dòng)。”
Olofson預(yù)測(cè)說,在將來的某個(gè)時(shí)候,電力公司就能利用大數(shù)據(jù)技術(shù)來改善為客戶所提供的服務(wù),并通過電網(wǎng)監(jiān)控、問題檢測(cè)和對(duì)電網(wǎng)進(jìn)行微調(diào)等降低運(yùn)營(yíng)成本——但是這可能需要對(duì)某些正在老化的基礎(chǔ)設(shè)施進(jìn)行重大升級(jí)才行。
一些品牌營(yíng)銷公司也在利用Hadoop在社交媒體上實(shí)驗(yàn)所謂的“情緒分析”。這些服務(wù)提供商利用Hadoop,仔細(xì)審查客戶在Twitter上的行為,看看他們對(duì)于某個(gè)特定產(chǎn)品究竟在說些什么和想些什么。
謹(jǐn)慎行事
大數(shù)據(jù)技術(shù)正在迅速發(fā)展。正在使用大數(shù)據(jù)技術(shù)的一些企業(yè)自己就擁有非常精通技術(shù)的IT專業(yè)人員,可以很好地適應(yīng)大數(shù)據(jù)技術(shù)的進(jìn)步以及企業(yè)的需求。
“假如企業(yè)尚未具備部署大數(shù)據(jù)的條件,也可考慮選擇一家服務(wù)提供商——可能是一家云服務(wù)商,或者可以等待大數(shù)據(jù)技術(shù)成熟到了某個(gè)時(shí)點(diǎn),有了大量成熟的軟件產(chǎn)品和有支持的服務(wù)時(shí)再采用,”Olofson說。
毫無疑問,數(shù)據(jù)挖掘領(lǐng)域已經(jīng)發(fā)生了徹底的變化。但是分析師們認(rèn)為,大數(shù)據(jù)技術(shù)不會(huì)完全取代今天的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘工具。
“現(xiàn)有的數(shù)據(jù)挖掘?qū)嶋H上因?yàn)椴]有非常大的數(shù)據(jù),所以需要構(gòu)建相對(duì)復(fù)雜的分析模型,”Gartner的Collins說。“而現(xiàn)在,大數(shù)據(jù)為企業(yè)提供了非常巨量的數(shù)據(jù),這就意味著企業(yè)不再需要構(gòu)建復(fù)雜的分析模型了。因此,數(shù)據(jù)挖掘的分析方式將會(huì)發(fā)生重大變化。”
Olofson說,“我得觀點(diǎn)是,大數(shù)據(jù)實(shí)際上會(huì)擴(kuò)展數(shù)據(jù)倉(cāng)庫(kù)的市場(chǎng)容量。企業(yè)會(huì)使用諸如MapReduce的技術(shù),無論是Hadoop還是其他一些商業(yè)擴(kuò)展產(chǎn)品,生成一些很有意思的商業(yè)智能數(shù)據(jù),而這些數(shù)據(jù)是之前根本無法獲得的。然后,為了重復(fù)使用這些數(shù)據(jù),跟蹤歷史數(shù)據(jù),企業(yè)將會(huì)把這些數(shù)據(jù)放入數(shù)據(jù)倉(cāng)庫(kù),這實(shí)際上就是在擴(kuò)展其數(shù)據(jù)倉(cāng)庫(kù)的使用。”
大數(shù)據(jù)的規(guī)模代表著另一個(gè)挑戰(zhàn),Collins說,“其實(shí)目前尚未有部署和使用大數(shù)據(jù)技術(shù)的成熟的體系架構(gòu)模式,所以我們必須邊干邊學(xué)習(xí)。”
不過Collins認(rèn)為,大數(shù)據(jù)技術(shù)本身的一些風(fēng)險(xiǎn)正在消除,因?yàn)橐呀?jīng)有不少預(yù)包裝的工具可供選擇,但是該項(xiàng)技術(shù)仍然非常像一個(gè)編程接口——這對(duì)商業(yè)智能來說可以說是一種倒退。舉例來說,“Hadoop就是一個(gè)技術(shù)性相當(dāng)強(qiáng)的系統(tǒng),不過在商業(yè)智能的推動(dòng)下,已經(jīng)逐漸進(jìn)入企業(yè)和桌面,有著非常有好的用戶界面。雖然使用Hadoop會(huì)在普及上后退一步買單時(shí)一些新興的廠商將會(huì)幫助我們把它推向需要它的用戶社區(qū)。”
“大數(shù)據(jù)技術(shù)還需要出現(xiàn)一些質(zhì)的飛躍,我們必須把這些工具給到業(yè)務(wù)單位的用戶手中,但目前還做不到這一點(diǎn),”Collins補(bǔ)充道。
關(guān)于大數(shù)據(jù)技術(shù)的三大誤區(qū)
業(yè)界對(duì)于大數(shù)據(jù)是什么和它能夠做什么還存在著非常多的混淆。以下就是有關(guān)大數(shù)據(jù)的三大常見的誤區(qū):
1、關(guān)系數(shù)據(jù)庫(kù)不可能擴(kuò)展到非常龐大的體量,因此它也不需要考慮大數(shù)據(jù)技術(shù)。
2、Hadoop或者其擴(kuò)展,如任何MapReduce環(huán)境是大數(shù)據(jù)的最佳之選,而不必去考慮實(shí)際的工作負(fù)載或者使用環(huán)境。
3、關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)的時(shí)代已經(jīng)結(jié)束。真正關(guān)系的開發(fā)只能在大數(shù)據(jù)的部署中獲得。