Hadoop處于這個十年的大數(shù)據(jù)革命的暴風(fēng)眼。這種基于Java的框架實際上由一套用于分布式處理海量數(shù)據(jù)的軟件和子項目組成。核心方法是MapReduce,這項技術(shù)用來壓縮和簡化數(shù)十乃至數(shù)百TB字節(jié)的互聯(lián)網(wǎng)點擊流數(shù)據(jù)、日志文件數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)流或者是來自社交網(wǎng)絡(luò)內(nèi)容的大批文本。
自從Hadoop在2008年作為Apache開源項目發(fā)布以來,它就一直讓人備感興奮,原因在于它結(jié)合了成本低、可擴展性佳以及無需構(gòu)建預(yù)定義模式(predefined schema)就能靈活地處理任何數(shù)據(jù)等優(yōu)點。許多人覺得,Hadoop有望帶來全新一代的數(shù)據(jù)處理功能,就像結(jié)構(gòu)化查詢語言(SQL)30多年前在數(shù)據(jù)計算領(lǐng)域引發(fā)革命那樣。
但是Hadoop不太成熟,在某些方面與SQL相比完全很原始、很粗陋。一些開路先鋒已經(jīng)投入至少六年的時間來開發(fā)Hadoop,其中大多數(shù)人在雅虎等互聯(lián)網(wǎng)巨頭開始接觸這種框架。Hadoop取得的成功同時也促使主流市場對其穩(wěn)定性、成熟的管理等更高的需求,包括SQL環(huán)境具有的那些豐富功能等等。
現(xiàn)在所有人寄希望于Hadoop廠商們開發(fā)出成熟可靠的工具、功能和技術(shù)創(chuàng)新。這個社區(qū)中有影響力的主要廠商包括Cloudera和亞馬遜。Cloudera是開山鼻祖,現(xiàn)在也是Hadoop軟件的最主要來源,它擁有CDH發(fā)行版和配套的管理軟件。它還是為Hadoop提供企業(yè)支持和培訓(xùn)服務(wù)的最大供應(yīng)商。亞馬遜很早就進入了這個領(lǐng)域,其亞馬遜彈性MapReduce服務(wù)在公共云中運行Hadoop。
2011年,MapR和Hortonworks(后者從雅虎拆分出來)一下子備受矚目,它們宣布了各自的Hadoop軟件發(fā)行版,另外提供支持和培訓(xùn)服務(wù);至于MapR,它還提供旨在提供高性能的專有版本。Hadoop要有所改進,競爭是一個方面,所以市面上出現(xiàn)更多版本以及新的支持和培訓(xùn)服務(wù)應(yīng)該讓每個人都受益。
數(shù)據(jù)處理是一回事,但是大多數(shù)Hadoop用戶最終希望實現(xiàn)的是分析數(shù)據(jù)。這時候,像Datameer、Hadapt和Karmasphere這些專門針對Hadoop的數(shù)據(jù)訪問、商業(yè)智能和分析工具廠商就閃亮登場了。
Hadoop邁向主流的標志是在2011年,它得到了五家主要的數(shù)據(jù)庫和數(shù)據(jù)管理廠商的積極接受,EMC、IBM、Informatica、微軟和甲骨文都紛紛進入Hadoop領(lǐng)域一較高下。IBM和EMC在去年發(fā)布了各自的發(fā)行版,后者還與MapR結(jié)為合作伙伴。微軟和甲骨文則分別與Hortonworks和Cloudera合作。EMC和甲骨文都發(fā)布了專門定制的硬件設(shè)備,隨時可以運行Hadoop。Informatica擴展了其數(shù)據(jù)集成平臺以支持Hadoop,現(xiàn)在它還將其解析代碼和數(shù)據(jù)轉(zhuǎn)換代碼直接融入到環(huán)境中。不妨深入了解這些有影響力的廠商們在Hadoop方面有怎樣的作為。
亞馬遜將MapReduce作為服務(wù)來交付
亞馬遜早在2009年就推出了亞馬遜彈性MapReduce(Amazon Elastic MapReduce),絕非很晚進入Hadoop領(lǐng)域。所以說,亞馬遜對Hadoop的需求和應(yīng)用可謂了若指掌,無論用戶是運行試點項目的新手,還是內(nèi)部部署的預(yù)置型系統(tǒng)遇到需求過載時,利用彈性MapReduce來獲取額外容量的專業(yè)人士。
彈性MapReduce是一項能夠迅速擴展的Web服務(wù),運行在亞馬遜彈性計算云(Amazon EC2)和亞馬遜簡單存儲服務(wù)(Amazon S3)上。這可是貨真價實的云:面對數(shù)據(jù)密集型任務(wù),比如互聯(lián)網(wǎng)索引、數(shù)據(jù)挖掘、日志文件分析、機器學(xué)習(xí)、金融分析、科學(xué)模擬和生物信息學(xué)研究,用戶需要多大容量,立即就能配置到多大容量。
除了數(shù)據(jù)處理外,用戶還可以使用Karmasphere Analyst的基于服務(wù)的版本,Karmasphere Analyst是一種可視化工作區(qū),用于在亞馬遜彈性MapReduce上分析數(shù)據(jù)。Karmasphere提供了可視化工具,以便使用SQL及其他語言,針對在亞馬遜S3、亞馬遜彈性MapReduce作業(yè)流或本地文件系統(tǒng)上的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),執(zhí)行即席查詢和分析。用戶還可以提取結(jié)果文件,以便在數(shù)據(jù)庫或者微軟Excel或Tableau等工具中使用。