當數(shù)據(jù)快速發(fā)展的時候,當時我們確實也存在很多數(shù)據(jù)解決方案,這些解決方案主要是由IBM等等公司提供。這些解決方案看起來非常并行,是企業(yè)數(shù)據(jù)的解決方案。但是對于這些解決方案存在的問題就是針對專屬的數(shù)據(jù),要付出高昂的代價解決這些問題。在大數(shù)據(jù)世界里,很多中小公司也會產(chǎn)生大量的數(shù)據(jù),他們無法支付得起高昂的企業(yè)解決方案。
The rise of Hadoop
1.history of Hadoop
2003年,谷歌發(fā)布了一篇Google GFS論文,論文介紹了如何將GFS系統(tǒng)用于大型的、分布式的、對大量數(shù)據(jù)進行訪問的應(yīng)用。2004年,谷歌公布了另外一篇關(guān)于MapReduce的介紹一種用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算編程模型,即MapReduce編程模型。
2005年初,雅虎啟動了Nutch項目,同時,Nutch項目的開發(fā)者在Nutch上有了一個可工作的MapReduce應(yīng)用,到當年年中,所有主要的Nutch算法被移植到使用MapReduce和HDFS來運行。
在2006年2月,他們從Nutch轉(zhuǎn)移出來成為一個獨立的Lucene子項目,稱為Hadoop。大約在同一時間,Doug Cutting加入雅虎。Yahoo提供一個專門的團隊和資源將Hadoop發(fā)展成一個可在網(wǎng)絡(luò)上運行的系統(tǒng)。