Forrester分析師James Kobielus在一篇關(guān)于“大數(shù)據(jù)”的博客中指出:“關(guān)鍵不在于采用什么方法,而在于能夠使用任意可用工具或方法真正地解決問(wèn)題。”
近幾年在解決大數(shù)據(jù)問(wèn)題的迫切感驅(qū)使下,許多組織的數(shù)據(jù)架構(gòu)師開(kāi)始走向探索之路。簡(jiǎn)單而言,他們通常用于分析企業(yè)數(shù)據(jù)的傳統(tǒng)數(shù)據(jù)庫(kù)和商業(yè)智能工具已經(jīng)無(wú)法勝任大數(shù)據(jù)處理任務(wù)。
要理解這個(gè)挑戰(zhàn),必須回到十年前:當(dāng)時(shí)很少有TB級(jí)的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)。Forrester分析報(bào)告指出,在2009年之前,有三分之二的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)(EDW)處于1-10 TB范圍。而到2015年,大多數(shù)大型組織的EDW會(huì)達(dá)到100TB以上,“電信、金融服務(wù)和電子商務(wù)領(lǐng)域會(huì)出現(xiàn)PB級(jí)EDW”。
需要注意的是,這些大數(shù)據(jù)存儲(chǔ)是一些進(jìn)行“超級(jí)規(guī)模分析”的新工具和新方法。他的意思是,“超級(jí)規(guī)模”數(shù)據(jù)分析包含4個(gè)方面:容量(從幾百TB到PB)、速度(達(dá)到實(shí)時(shí)、秒級(jí)交付水平)、多樣性(多樣結(jié)構(gòu)、無(wú)結(jié)構(gòu)或半結(jié)構(gòu)格式)和波動(dòng)性(存儲(chǔ)大量涉及新應(yīng)用程序、新服務(wù)、新社交網(wǎng)絡(luò)的新數(shù)據(jù)源)。
Hadoop大數(shù)據(jù)技術(shù)快速發(fā)展
最近幾年,最受關(guān)注的方法之一是Apache Hadoop。這是一個(gè)開(kāi)源軟件框架,支持上千個(gè)節(jié)點(diǎn)和PB級(jí)數(shù)據(jù)的數(shù)據(jù)密集型分布式分析。
它的底層技術(shù)源于谷歌內(nèi)部開(kāi)發(fā)者發(fā)明的搜索引擎。他們使用它查找有用的索引數(shù)據(jù)及其他“富”信息,然后將結(jié)果通過(guò)各種方法返回給用戶。他們將這種技術(shù)稱(chēng)為MapReduce——而現(xiàn)在的Hadoop是一個(gè)開(kāi)源版本,可供數(shù)據(jù)架構(gòu)師用于實(shí)現(xiàn)計(jì)算密集型深度分析。
最近,Hadoop專(zhuān)家Karmasphere進(jìn)行了一次企業(yè)用戶調(diào)查 。調(diào)查結(jié)果顯示,有94%的Hadoop用戶表示他們現(xiàn)在實(shí)現(xiàn)了之前無(wú)法實(shí)現(xiàn)的大容量數(shù)據(jù)分析;有88%的用戶表示他們提高了數(shù)據(jù)分析水平;有82%的用戶表示現(xiàn)在能夠掌握更多的數(shù)據(jù)。
Hadoop仍然是一項(xiàng)小生態(tài)技術(shù),但是由于Cloudera和MapR等創(chuàng)業(yè)公司推出的商業(yè)授權(quán)和支持Hadoop產(chǎn)品,它在去年取得了很大進(jìn)步。由于EMC、IBM和Teradata等EDW供應(yīng)商的廣泛關(guān)注,它的用戶量也在不斷增長(zhǎng)。在2010年6月,EMC收購(gòu)了Hadoop專(zhuān)業(yè)公司Greenplum;2011年3月,Teradata宣布收購(gòu)Aster Data;而在2011年5月,IBM也發(fā)布了自己的Hadoop產(chǎn)品。
新組織EMC Greenplum的架構(gòu)師Mark Sears指出,Greenplum吸引EMC的是它基于x86、擴(kuò)展MPP和無(wú)共享的設(shè)計(jì)。他說(shuō):“并非所有人都應(yīng)該采用這種方法,但是越來(lái)越多的客戶選擇這樣做。”
在許多時(shí)候,有一些公司已經(jīng)精于分析,例如通過(guò)挖掘客戶數(shù)據(jù)而發(fā)現(xiàn)購(gòu)買(mǎi)趨勢(shì)。然而,過(guò)去他們可能需要從整個(gè)5百萬(wàn)客戶數(shù)據(jù)池中查詢與其中50萬(wàn)客戶相關(guān)的隨機(jī)數(shù)據(jù)采樣。這樣,他們便存在錯(cuò)過(guò)一些重要數(shù)據(jù)的風(fēng)險(xiǎn)。通過(guò)使用大數(shù)據(jù)方法,完全可能以相對(duì)高效的方法查詢?nèi)?百萬(wàn)條數(shù)據(jù)。
Hadoop得到商業(yè)用戶認(rèn)可
雖然技術(shù)人員非常關(guān)注Hadoop,但是它仍然未在商業(yè)領(lǐng)域得到廣泛認(rèn)可。簡(jiǎn)單而言,Hadoop在設(shè)計(jì)上支持在大量低端服務(wù)器之上運(yùn)行,然后將數(shù)據(jù)容量分散到集群中,使用Hadoop分布式文件系統(tǒng)(HDFS)跟蹤各部分的數(shù)據(jù)。分析負(fù)載的執(zhí)行發(fā)生在集群中,它使用Pig和Hive等工具和采用大并發(fā)處理(MPP)模式。同時(shí),執(zhí)行結(jié)果采用統(tǒng)一的格式。
今年年初,Gartner分析師Marcus Collins介紹了目前的一些Hadoop使用方法:金融服務(wù)公司使用它從信用卡交易記錄中發(fā)現(xiàn)欺騙模式;移動(dòng)電信提供商使用它發(fā)現(xiàn)客戶變化模式;研究機(jī)構(gòu)人員使用它發(fā)現(xiàn)望遠(yuǎn)鏡觀測(cè)到的天體物體。
他總結(jié)道:“低端服務(wù)器與存儲(chǔ)的性價(jià)曲線,似乎可以在越來(lái)越多企業(yè)的預(yù)算范圍內(nèi),實(shí)現(xiàn)超大容量數(shù)據(jù)的超復(fù)雜分析。這項(xiàng)技術(shù)將給早期采用組織帶來(lái)重大的競(jìng)爭(zhēng)優(yōu)勢(shì)。”
在早期采用者中,團(tuán)購(gòu)網(wǎng)站Groupon使用Hadoop 發(fā)行版Cloudera,分析全世界7000萬(wàn)注冊(cè)用戶的交易數(shù)據(jù)。另外,NYSE Euronext運(yùn)營(yíng)著紐約證券交易所以及歐洲和美國(guó)的其他股票和衍生產(chǎn)品市場(chǎng)。NYSE Euronext使用EMC Greenplum管理越來(lái)越多的交易數(shù)據(jù),每天平均達(dá)到2TB。同時(shí),美國(guó)書(shū)商Barnes & Noble使用Aster Data nCluster(現(xiàn)在已被Teradata收購(gòu))了解客戶在三個(gè)銷(xiāo)售渠道上的偏好和購(gòu)買(mǎi)習(xí)慣:零售店、在線商店和電子閱讀器下載。
大數(shù)據(jù)分析的技術(shù)缺口
Collins指出,雖然Hadoop的成本優(yōu)勢(shì)可能有利于它的普及,但是技術(shù)問(wèn)題仍然令人擔(dān)憂。他說(shuō):“大數(shù)據(jù)分析是一個(gè)新興領(lǐng)域,現(xiàn)在許多組織或更廣闊的人才市場(chǎng)還沒(méi)有足夠的技術(shù)人才儲(chǔ)備。”
Hadoop應(yīng)用過(guò)程中的技術(shù)問(wèn)題包括MapReduce框架的技術(shù)特性(它要求用戶開(kāi)發(fā)Java代碼),以及缺少Hadoop基礎(chǔ)架構(gòu)設(shè)計(jì)的知識(shí)。另一個(gè)障礙是缺少可用于檢查Hadoop數(shù)據(jù)的分析工具。
然而,現(xiàn)在開(kāi)始有一些變化。首先,現(xiàn)有BI工具供應(yīng)商正在增加Apache Hadoop支持:其中一個(gè)例子是Pentaho,它先在2010年5月加入Hadoop支持,隨后又增加EMC Greenplum發(fā)行版支持。
Hadoop正在成為主流的另一個(gè)跡象是數(shù)據(jù)集成商的支持,如Informatica。現(xiàn)在,Hadoop的最常用法是作為ETL(提取、轉(zhuǎn)換和加載)過(guò)程的“轉(zhuǎn)換”引擎:MapReduce技術(shù)本身很適合完成數(shù)據(jù)準(zhǔn)備任務(wù),以及在傳統(tǒng)的RDBMS數(shù)據(jù)倉(cāng)庫(kù)或HDFS/Hive上對(duì)數(shù)據(jù)進(jìn)行更深入的分析。相對(duì)應(yīng)地,Informatica在2011年5月宣布,將在EMC Greenplum及其Data Integration Platform之間進(jìn)行整合。
此外,還有出現(xiàn)了一些Hadoop設(shè)備,其中包括2011年5月發(fā)布的EMC Greenplum HD(一個(gè)整合Hadoop MapR、Greenplum數(shù)據(jù)和標(biāo)準(zhǔn)x86服務(wù)器的設(shè)備)和Dell/Cloudera Solution(在Dell PowerEdge C2100服務(wù)器和PowerConnect交換機(jī)上整合Cloudera的Hadoop發(fā)行版和Cloudera Enterprise管理工具)。
最后,Hadoop很適合部署到云環(huán)境上,這樣IT團(tuán)隊(duì)就有可能在云基礎(chǔ)架構(gòu)上進(jìn)行試點(diǎn)實(shí)驗(yàn)。例如,Amazon在它的Amazon Elastic Compute Cloud (EC2)和Amazon Simple Storage Service (S3)提供了Amazon Elastic MapReduce托管服務(wù)。而且,Apache Hadoop還帶有一組專(zhuān)門(mén)用于簡(jiǎn)化EC2部署和運(yùn)行的工具。
Collins說(shuō):“如果數(shù)據(jù)已經(jīng)存儲(chǔ)在Amazon S3中,那么在EC2上運(yùn)行Hadoop是非常好的選擇。”如果數(shù)據(jù)不存在于Amazon S3,那么必須進(jìn)行轉(zhuǎn)換:Amazon Web Services (AWS)收費(fèi)模式包含網(wǎng)絡(luò)費(fèi)用,Amazon Elastic MapReduce費(fèi)用會(huì)附加到常規(guī)的Amazon EC3和S3價(jià)格上。他警告說(shuō):“由于數(shù)據(jù)容量很大,必須運(yùn)行大數(shù)據(jù)分析,所以數(shù)據(jù)轉(zhuǎn)換和執(zhí)行分析的費(fèi)用應(yīng)該小心考慮。”
Kobielus指出,底線是“Hadoop是EDW的未來(lái),而且它在企業(yè)核心EDW架構(gòu)中的應(yīng)用很可能在未來(lái)十年保持增長(zhǎng)。”