在互聯(lián)網(wǎng)這個領(lǐng)域一直有這樣的說法:“如果老二無法戰(zhàn)勝老大,那么就把老大賴以生存的東西開源吧”。當(dāng)年Yahoo!與Google還是處在強烈競爭關(guān)系時候,招聘了Doug(Hadoop創(chuàng)始人),把Google老大賴以生存的DFS與Map-Reduce開源了,開始了Hadoop的童年時期。差不多在2008年的時候,Hadoop才算逐漸成熟。
從初創(chuàng)到現(xiàn)在,Hadoop經(jīng)過了至少7年的積累,現(xiàn)在的Hadoop不僅是當(dāng)年的老二Yahoo的專用產(chǎn)品了,從Hadoop長長的用戶名單中,可以看到Facebook、Linkedin、Amazon,可以看到EMC、eBay、Twitter、IBM、Microsoft,、Apple、HP...國內(nèi)的公司有淘寶、百度等等。
本文將對Hadoop七年(2004-2011)的發(fā)展歷程進行梳理。讀完本文后,將不難看出,Hadoop的發(fā)展基本上經(jīng)歷了這樣一個過程:從一個開源的Apache基金會項目,隨著越來越多的用戶的加入,不斷地使用、貢獻和完善,形成一個強大的生態(tài)系統(tǒng),從2009年開始,隨著云計算和大數(shù)據(jù)的發(fā)展,Hadoop作為海量數(shù)據(jù)分析的最佳解決方案,開始受到許多IT廠商的關(guān)注,從而出現(xiàn)了許多Hadoop的商業(yè)版以及支持Hadoop的產(chǎn)品,包括軟件和硬件。
在互聯(lián)網(wǎng)這個領(lǐng)域一直有這樣的說法:“如果老二無法戰(zhàn)勝老大,那么就把老大賴以生存的東西開源吧”。當(dāng)年Yahoo!與Google還是處在強烈競爭關(guān)系時候,招聘了Doug(Hadoop創(chuàng)始人),把Google老大賴以生存的DFS與Map-Reduce開源了,開始了Hadoop的童年時期。差不多在2008年的時候,Hadoop才算逐漸成熟。
從初創(chuàng)到現(xiàn)在,Hadoop經(jīng)過了至少7年的積累,現(xiàn)在的Hadoop不僅是當(dāng)年的老二Yahoo的專用產(chǎn)品了,從Hadoop長長的用戶名單中,可以看到Facebook、Linkedin、Amazon,可以看到EMC、eBay、Twitter、IBM、Microsoft,、Apple、HP...國內(nèi)的公司有淘寶、百度等等。
本文將對Hadoop七年(2004-2011)的發(fā)展歷程進行梳理。讀完本文后,將不難看出,Hadoop的發(fā)展基本上經(jīng)歷了這樣一個過程:從一個開源的Apache基金會項目,隨著越來越多的用戶的加入,不斷地使用、貢獻和完善,形成一個強大的生態(tài)系統(tǒng),從2009年開始,隨著云計算和大數(shù)據(jù)的發(fā)展,Hadoop作為海量數(shù)據(jù)分析的最佳解決方案,開始受到許多IT廠商的關(guān)注,從而出現(xiàn)了許多Hadoop的商業(yè)版以及支持Hadoop的產(chǎn)品,包括軟件和硬件。
2004年,Google發(fā)表論文,向全世界介紹了MapReduce。
2005年初,為了支持Nutch搜索引擎項目,Nutch的開發(fā)者基于Google發(fā)布的MapReduce報告,在Nutch上開發(fā)了一個可工作的MapReduce應(yīng)用。
2005年年中,所有主要的Nutch算法被移植到使用MapReduce和NDFS(Nutch Distributed File System )來運行。
2006年1月,Doug Cutting加入雅虎,Yahoo!提供一個專門的團隊和資源將Hadoop發(fā)展成一個可在網(wǎng)絡(luò)上運行的系統(tǒng)。
2006年2月,Apache Hadoop項目正式啟動以支持MapReduce和HDFS的獨立發(fā)展。
2007年,百度開始使用Hadoop做離線處理,目前差不多80%的Hadoop集群用作日志處理。
2007年,中國移動開始在“大云”研究中使用Hadoop技術(shù),規(guī)模超過1000臺。
2008年,淘寶開始投入研究基于Hadoop的系統(tǒng)——云梯,并將其用于處理電子商務(wù)相關(guān)數(shù)據(jù)。云梯1的總?cè)萘看蟾艦?.3PB,包含了1100臺機器,每天處理約18000道作業(yè),掃描500TB數(shù)據(jù)。
2008年1月,Hadoop成為Apache頂級項目。
2008年2月,Yahoo!宣布其搜索引擎產(chǎn)品部署在一個擁有1萬個內(nèi)核的Hadoop集群上。
2008年7月,Hadoop打破1TB數(shù)據(jù)排序基準(zhǔn)測試記錄。Yahoo!的一個Hadoop集群用209秒完成1TB數(shù)據(jù)的排序 ,比上一年的紀(jì)錄保持者保持的297秒快了將近90秒。