截至到2005年,谷歌公司(Google)引領(lǐng)的這種新型Nutch系統(tǒng)已經(jīng)被我們應(yīng)用于20到40個計算機集群中。但是,如果僅僅依靠幾個人利用業(yè)余時間來開發(fā)這款軟件,那么可能需要耗費很多年的時間才能讓該足夠穩(wěn)定且可靠。此外該軟件需要在數(shù)以千計的計算機集群上進(jìn)行測試和調(diào)試,但是他們沒有足夠的計算機集群來完成這一工作。
2006年,我在雅虎公司(Yahoo!)給一些伙計們談?wù)摿擞嘘P(guān)Nutch的信息,并且得知大家對這種軟件存在巨大的需求。同時,我們也有一支熟練的工程師隊伍在進(jìn)行這項工作,并且部署了大量的硬件。
于是,在2006年1月,我加入到了雅虎公司(Yahoo!)。此后不久將Nutch中的分布式文件系統(tǒng)和MapReduce軟件分隔開來形成了一個新的項目,即“Hadoop”,這是以我的兒子的毛絨大象玩具而命名的。由于新加入了十幾名雅虎公司(Yahoo!)的工程師以及配置了數(shù)千臺電腦,取得了飛速的進(jìn)展。截止到2007年,我們構(gòu)建了一個相對穩(wěn)定的、可靠的系統(tǒng),可以使用經(jīng)濟實惠的商用硬件處理數(shù)千兆字節(jié)(PB)的數(shù)據(jù)。
Hadoop徹底地改變了整個行業(yè)的格局。開發(fā)人員可以更快、更輕松地構(gòu)建更好的廣告方式、拼寫檢查、頁面布局等等。此外,越來越多的非雅虎公司(Yahoo!)的用戶也開始部署Hadoop,例如Facebook、Twitter和LinkedIn等公司。在Hadoop之上也很快建立了其他項目,例如Apache Pig、Apache Hive、Apache HBase等等。同時,學(xué)術(shù)研究人員也開始使用Hadoop。這樣就已經(jīng)達(dá)到了我們最初設(shè)想的目標(biāo):即構(gòu)建一個能夠輕松方便、經(jīng)濟實惠地存儲和分析大量數(shù)據(jù)的非常流行的開源項目。
隨后一些風(fēng)險投資商說該軟件可能除了網(wǎng)絡(luò)和學(xué)術(shù)界之外還有更大用途。但是有人認(rèn)為銀行、保險公司和鐵路公司可能永遠(yuǎn)也不會運行這種開源的“黑客式”軟件。風(fēng)險投資商依然堅持他們的觀點,并在2008年籌建了Cloudera,這是業(yè)界第一家明確使命為將Hadoop和相關(guān)技術(shù)引入傳統(tǒng)企業(yè)的公司。
一年以后,在2009年,我開始意識到這種可能性。如果可以讓世界500強企業(yè)開始采用Hadoop的話,那么很可能就會改變他們的業(yè)務(wù)模式。隨著公司逐漸采取更多的技術(shù),從網(wǎng)站和呼叫中心到現(xiàn)金出納機和條碼掃描器,他們的手指尖將會傳遞越來越多的關(guān)于他們企業(yè)的數(shù)據(jù)。如果企業(yè)機構(gòu)能夠采集和使用更多的數(shù)據(jù),那么將可以更好地了解和改善他們的業(yè)務(wù)。傳統(tǒng)的基于關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)的技術(shù)存在以下弱點:在支持可變、凌亂的數(shù)據(jù)和快速實驗方面顯得太過死板;無法輕易擴展到支撐PB級數(shù)據(jù);并且成本非常昂貴。與此相比,即使是很小的Hadoop集群也可以允許公司提出和回答比以前更復(fù)雜的問題,并且可以不斷地學(xué)習(xí)和提高。最后,我加入了Cloudera公司。
現(xiàn)況與展望
現(xiàn)在,七年后,Hadoop及其開啟的潮流已經(jīng)在主流企業(yè)中發(fā)揮了非常有價值的作用。
我們在多個方面正處于大變革的時代。目前,傳統(tǒng)的企業(yè)式關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)軟件面臨著開源的大數(shù)據(jù)軟件這個競爭對手。出乎意料但是非常讓人驚喜的是,黑客式和企業(yè)式軟件傳統(tǒng)之間的差異已不再明顯,并且兩者之間已經(jīng)出現(xiàn)了融合。同時,軟件的開發(fā)者和使用者之間也沒有了有嚴(yán)格的劃分。
Hadoop生態(tài)系統(tǒng)中沒有任何一個單一的軟件組件占主導(dǎo)地位。Hadoop也許是最古老和最成功的組件,但是每年都會引入新的、改進(jìn)的技術(shù)。新型的執(zhí)行引擎(例如Apache Spark)和新型的存儲系統(tǒng)(例如Apache Kudu(正在孵化中))表明,這種軟件生態(tài)系統(tǒng)的發(fā)展非常迅速,且不存在任何中心控制點。用戶也可以更快的獲得更好的軟件產(chǎn)品。
該軟件不僅更實惠,可擴展,而且提供了更好的風(fēng)格。企業(yè)機構(gòu)不僅可以探索混亂的、多樣化的數(shù)據(jù)源,開展實驗,而且可以迅速地開發(fā)和改進(jìn)應(yīng)用程序。我們可以綜合利用源于傳感器、社交媒體和生產(chǎn)過程的數(shù)據(jù)來進(jìn)行更深入的分析,制定明智的決策以及推出新的產(chǎn)品。包括Cloudera在內(nèi)的公司都在不斷地推動該軟件的完善,確保其滿足各行業(yè)的需求,使之更穩(wěn)定、更可靠、更易管理、更安全,并且可以與現(xiàn)有系統(tǒng)輕松地集成在一起。
當(dāng)前,政府和行業(yè)本身也正在轉(zhuǎn)型。不僅是優(yōu)步(Uber)和特斯拉(Tesla)之類的新興公司正在使用數(shù)據(jù)來重新塑造自己的行業(yè),卡特彼勒公司(Caterpillar)和雪佛龍公司(Chevron)等老字號品牌也正在通過數(shù)據(jù)技術(shù)極大地提升自身。我們將在本世紀(jì)獲得的絕大部分的技術(shù)進(jìn)步都將源于我們對所生成數(shù)據(jù)的深刻了解。