自拍偷拍网站,成人黄色网站 S 色,在线看片免费人成视久网

　　如今，Apache的Hadoop技術(shù)在幫助企業(yè)管理海量數(shù)據(jù)的過程中變得越來越重要。包括NASA（美國國家航空航天局）、Twitter和Netflix等用戶對這一開源分布式計算平臺的依賴性越來越大。Hadoop作為一種處理大數(shù)據(jù)的機(jī)制已經(jīng)獲得了越來越多的支持。因為企業(yè)計算機(jī)系統(tǒng)中的數(shù)據(jù)量正在快速增長，企業(yè)開始嘗試從這些海量數(shù)據(jù)中獲取派生價值。由于認(rèn)識到Hadoop的巨大潛力，更多的用戶在使用現(xiàn)有Hadoop平臺技術(shù)的同時，著手研發(fā)自有的技術(shù)，以對Hadoop堆棧進(jìn)行補(bǔ)充。

　　Hadoop的使用現(xiàn)狀

　　NASA希望Hadoop能夠處理眾多項目中的龐大數(shù)據(jù)，例如SKA（平方千米陣列）星空圖像。這些圖像在未來十年內(nèi)的生成速度將達(dá)到700TB/秒。NASA的高級計算機(jī)專家Chris Mattmann表示，包括Hadoop在內(nèi)的數(shù)據(jù)系統(tǒng)和Apache OODT（面向?qū)ο蟮臄?shù)據(jù)技術(shù)）等技術(shù)將用于應(yīng)對這些海量數(shù)據(jù)負(fù)載。

　　Twitter的數(shù)據(jù)專家Oscar Boykin說：“Twitter是Hadoop的大客戶。所有向用戶提供定制化推薦的相關(guān)產(chǎn)品都在一定程度上與Hadoop進(jìn)行著互動。”這家公司使用Hadoop的時間已經(jīng)有四年了，并且研發(fā)了Scalding。Scalding是一款Scala庫，旨在讓編寫Hadoop MapReduce的工作變得更加容易。該產(chǎn)品建立在Cascading Java庫的頂層，這樣做的目的是對Hadoop的復(fù)雜性進(jìn)行概括。

　　Hadoop的子項目包括MapReduce、HDFS（Hadoop分布式文件系統(tǒng)）和Common。MapReduce是用于處理計算集群上大型數(shù)據(jù)集的軟件框架，HDFS提供了對應(yīng)用數(shù)據(jù)的高速訪問，Common則為支持其他Hadoop子項目提供了一些實用工具。

　　電影租賃服務(wù)商N(yùn)etflix已經(jīng)開始使用用于配置管理的Hadoop相關(guān)技術(shù)——Apache ZooKeeper。Netflix的高級平臺工程師Jordan Zimmerman說：“我們在分布式鎖、部分隊列排列和領(lǐng)導(dǎo)人選舉等所有類型的工作中都使用了這種技術(shù)，以優(yōu)化服務(wù)活動。我們針對ZooKeeper開發(fā)了一個開源客戶端，我們稱其為Curator。這個客戶端作為一個開發(fā)者庫與ZooKeeper相連。”

　　Tagged的高級數(shù)據(jù)工程師Rich McKinley則表示，Tagged社交網(wǎng)絡(luò)正在使用Hadoop技術(shù)用于數(shù)據(jù)分析，處理每天所生成的接近0.5個太字節(jié)的新數(shù)據(jù)。Hadoop還正在被用于Greenplum數(shù)據(jù)庫容量之外的任務(wù)中。目前Tagged仍然在使用Greenplum數(shù)據(jù)庫。McKinley說：“我們希望僅通過擴(kuò)展讓Hadoop做更多的工作。”

　　盡管大家都在稱贊Hadoop，但是部分用戶認(rèn)為仍然有一些問題需要解決。比方說，Hadoop在可靠性和工作追蹤上的不足。Tagged的McKinley指出了Hadoop在延時上存在的問題。“獲得數(shù)據(jù)的時間應(yīng)該非常快，然而每個人最大的抱怨就是它進(jìn)行查詢時的延遲太高。” McKinley說。Tagged目前正在使用另一個Hadoop派生項目Apache Hive進(jìn)行查詢。他說：“Hadoop需要花上數(shù)分鐘才能給出結(jié)果，而Greenplum給出結(jié)果只需要幾秒鐘。但是與Greenplum相比，Hadoop更加便宜。”

　　Hadoop 2.0蓄勢待發(fā)

　　Hadoop 1.0在2011年被推出，其擁有通過Kerberos（麻省理工學(xué)院開發(fā)的安全認(rèn)證系統(tǒng)）的高強(qiáng)度安全認(rèn)證，支持HBase數(shù)據(jù)庫。對于即將推出的新版本，HortonWorks的CTO Eric Baldeschwieler提供了一個包括2.0版本在內(nèi)的Hadoop技術(shù)發(fā)展路線圖。（HortonWorks公司是Apache Hadoop的主要資助者之一）。

　　Hadoop 2.0版本在2012年年初進(jìn)入測試階段。Baldeschwieler表示：“在這一版本中，MapReduce層進(jìn)行了部分重寫，所有的存儲邏輯和HDFS均進(jìn)行了徹底重寫。”Hadoop 2.0技術(shù)改進(jìn)的重點放在了利用Yarn（下一代MapReduce）和眾多功能進(jìn)行擴(kuò)展與創(chuàng)新方面。Yarn將允許用戶添加自己的計算模型，這樣一來，用戶就不用必須使用MapReduce了。“我們希望，社區(qū)能夠發(fā)現(xiàn)更多使用Hadoop的新方法，期待的用法包括實時應(yīng)用和機(jī)器學(xué)習(xí)算法。而可擴(kuò)展性、插接式存儲也在規(guī)劃之中。”Baldeschwieler說。據(jù)悉，Hadoop 2.0的公布發(fā)行版本預(yù)計將在2012年年內(nèi)推出。

Hadoop成為大數(shù)據(jù)關(guān)鍵部件