如今,Apache的Hadoop技術(shù)在幫助企業(yè)管理海量數(shù)據(jù)的過程中變得越來越重要。包括NASA(美國國家航空航天局)、Twitter和Netflix等用戶對這一開源分布式計算平臺的依賴性越來越大。Hadoop作為一種處理大數(shù)據(jù)的機(jī)制已經(jīng)獲得了越來越多的支持。因為企業(yè)計算機(jī)系統(tǒng)中的數(shù)據(jù)量正在快速增長,企業(yè)開始嘗試從這些海量數(shù)據(jù)中獲取派生價值。由于認(rèn)識到Hadoop的巨大潛力,更多的用戶在使用現(xiàn)有Hadoop平臺技術(shù)的同時,著手研發(fā)自有的技術(shù),以對Hadoop堆棧進(jìn)行補(bǔ)充。
Hadoop的使用現(xiàn)狀
NASA希望Hadoop能夠處理眾多項目中的龐大數(shù)據(jù),例如SKA(平方千米陣列)星空圖像。這些圖像在未來十年內(nèi)的生成速度將達(dá)到700TB/秒。NASA的高級計算機(jī)專家Chris Mattmann表示,包括Hadoop在內(nèi)的數(shù)據(jù)系統(tǒng)和Apache OODT(面向?qū)ο蟮臄?shù)據(jù)技術(shù))等技術(shù)將用于應(yīng)對這些海量數(shù)據(jù)負(fù)載。
Twitter的數(shù)據(jù)專家Oscar Boykin說:“Twitter是Hadoop的大客戶。所有向用戶提供定制化推薦的相關(guān)產(chǎn)品都在一定程度上與Hadoop進(jìn)行著互動。”這家公司使用Hadoop的時間已經(jīng)有四年了,并且研發(fā)了Scalding。Scalding是一款Scala庫,旨在讓編寫Hadoop MapReduce的工作變得更加容易。該產(chǎn)品建立在Cascading Java庫的頂層,這樣做的目的是對Hadoop的復(fù)雜性進(jìn)行概括。
Hadoop的子項目包括MapReduce、HDFS(Hadoop分布式文件系統(tǒng))和Common。MapReduce是用于處理計算集群上大型數(shù)據(jù)集的軟件框架,HDFS提供了對應(yīng)用數(shù)據(jù)的高速訪問,Common則為支持其他Hadoop子項目提供了一些實用工具。
電影租賃服務(wù)商N(yùn)etflix已經(jīng)開始使用用于配置管理的Hadoop相關(guān)技術(shù)——Apache ZooKeeper。Netflix的高級平臺工程師Jordan Zimmerman說:“我們在分布式鎖、部分隊列排列和領(lǐng)導(dǎo)人選舉等所有類型的工作中都使用了這種技術(shù),以優(yōu)化服務(wù)活動。我們針對ZooKeeper開發(fā)了一個開源客戶端,我們稱其為Curator。這個客戶端作為一個開發(fā)者庫與ZooKeeper相連。”
Tagged的高級數(shù)據(jù)工程師Rich McKinley則表示,Tagged社交網(wǎng)絡(luò)正在使用Hadoop技術(shù)用于數(shù)據(jù)分析,處理每天所生成的接近0.5個太字節(jié)的新數(shù)據(jù)。Hadoop還正在被用于Greenplum數(shù)據(jù)庫容量之外的任務(wù)中。目前Tagged仍然在使用Greenplum數(shù)據(jù)庫。McKinley說:“我們希望僅通過擴(kuò)展讓Hadoop做更多的工作。”
盡管大家都在稱贊Hadoop,但是部分用戶認(rèn)為仍然有一些問題需要解決。比方說,Hadoop在可靠性和工作追蹤上的不足。Tagged的McKinley指出了Hadoop在延時上存在的問題。“獲得數(shù)據(jù)的時間應(yīng)該非常快,然而每個人最大的抱怨就是它進(jìn)行查詢時的延遲太高。” McKinley說。Tagged目前正在使用另一個Hadoop派生項目Apache Hive進(jìn)行查詢。他說:“Hadoop需要花上數(shù)分鐘才能給出結(jié)果,而Greenplum給出結(jié)果只需要幾秒鐘。但是與Greenplum相比,Hadoop更加便宜。”
Hadoop 2.0蓄勢待發(fā)
Hadoop 1.0在2011年被推出,其擁有通過Kerberos(麻省理工學(xué)院開發(fā)的安全認(rèn)證系統(tǒng))的高強(qiáng)度安全認(rèn)證,支持HBase數(shù)據(jù)庫。對于即將推出的新版本,HortonWorks的CTO Eric Baldeschwieler提供了一個包括2.0版本在內(nèi)的Hadoop技術(shù)發(fā)展路線圖。(HortonWorks公司是Apache Hadoop的主要資助者之一)。
Hadoop 2.0版本在2012年年初進(jìn)入測試階段。Baldeschwieler表示:“在這一版本中,MapReduce層進(jìn)行了部分重寫,所有的存儲邏輯和HDFS均進(jìn)行了徹底重寫。”Hadoop 2.0技術(shù)改進(jìn)的重點放在了利用Yarn(下一代MapReduce)和眾多功能進(jìn)行擴(kuò)展與創(chuàng)新方面。Yarn將允許用戶添加自己的計算模型,這樣一來,用戶就不用必須使用MapReduce了。“我們希望,社區(qū)能夠發(fā)現(xiàn)更多使用Hadoop的新方法,期待的用法包括實時應(yīng)用和機(jī)器學(xué)習(xí)算法。而可擴(kuò)展性、插接式存儲也在規(guī)劃之中。”Baldeschwieler說。據(jù)悉,Hadoop 2.0的公布發(fā)行版本預(yù)計將在2012年年內(nèi)推出。