本文譯自《連線》雜志關(guān)于Hadoop開發(fā)商MapR發(fā)展歷程的文章。
M.C. Srivas(MapR創(chuàng)始人)幫助構(gòu)建了Google搜索引擎,他對Google搜索引擎仍然感到神奇
如果用戶在Google搜索框中輸入“2005款本田雅閣”,Google搜索會善解人意的知道你正在尋找一款合適的家庭級轎車。并且不僅返回給用戶有關(guān)“本田雅閣”的鏈接,還會返回一些類似價格的家庭級轎車給用戶參考——如大眾帕薩特或豐田凱美瑞。
Google可以智能地理清“公寓”和“房子”這兩個詞匯在搜索之間的區(qū)別。而當(dāng)用戶在搜索框輸入”new“時,搜索框還會出現(xiàn)類似Visual Studio中IntelliSence功能一樣提示“New York”和“New York Times”。
當(dāng)然,M.C. Srivas贊揚的并不是Google著名的搜索算法,而是后臺支持Google算法的基礎(chǔ)設(shè)施。如著名的GFS(Google File System)和Google著名的MapReduce。MapReduce是Google最早提出的且用于大規(guī)模數(shù)據(jù)集并行運算的軟件架構(gòu)。
Google搜索在得益于算法的發(fā)揮作用的同時,MapReduce在后臺發(fā)揮了極大的作用。其通過網(wǎng)絡(luò)采集了相關(guān)的網(wǎng)頁,并將其放置在可搜索的索引之中。M.C. Srivas表示“我們在Google所做的工作都是令人感到神奇的,高效的使用數(shù)據(jù)令我本人都感到震驚”。現(xiàn)今這兩項技術(shù)已普遍應(yīng)用在服務(wù)器中并用來存儲和分析海量的數(shù)據(jù)。
M.C. Srivas在Google搜索基礎(chǔ)設(shè)施團(tuán)隊工作了2年,在2009年夏天他選擇離開了Google,并創(chuàng)建了公司——MapR。MapR也采用了Google基礎(chǔ)設(shè)施背后優(yōu)秀的設(shè)計思想(Google GFS和MapReduce),并提供大數(shù)據(jù)處理的業(yè)務(wù)。和其他公司一樣M.C. Srivas將基于開源的Hadoop產(chǎn)品商品化并進(jìn)行銷售。
但和其他競爭對手不同的是,MapR提供了很多不同于Hadoop的特性,公司還宣稱MapR是一個比現(xiàn)有Hadoop分布式文件系統(tǒng)還要快三倍的產(chǎn)品。為了完善MapR,M.C. Srivas帶領(lǐng)他的團(tuán)隊花了2年時間重構(gòu)了Hadoop,并消除了作為大數(shù)據(jù)處理平臺的缺陷。M.C. Srivas向美國《連線》雜志表示“三年前我在公眾演講中談到了Hadoop存在的問題,而三年后的今天這些問題仍然存在于開源的Hadoop版本中。在某些時候,要做的就是說‘這無法解決’,然后拋棄并重構(gòu)它,這就是我們在這2年所做的工作”。
在互聯(lián)網(wǎng)時代,越來越多的數(shù)據(jù)涌入全球的企業(yè)之中。而Hadoop現(xiàn)已成為互聯(lián)網(wǎng)巨頭重塑軟硬件以處理日常業(yè)務(wù)的典范。Hadoop利用廉價的服務(wù)器集群分析、處理大量非結(jié)構(gòu)化數(shù)據(jù)。
當(dāng)今的一些科技巨頭如Microsoft、Oracle以及IBM都提供了結(jié)合自身的基于Hadoop的產(chǎn)品。在初創(chuàng)企業(yè)中MapR只是其中的一個,Cloudera和Hortonworks也同樣引人注目。Cloudera的和Hortwornworks現(xiàn)今也致力于提高開源項目,但其代碼是專有的。
這些初創(chuàng)企業(yè)對Hadoop的完善都有自身獨到之處的一面,同時由于各自產(chǎn)品面臨市場激烈的競爭,也不可避免的會對其他廠商的產(chǎn)品不足有所批評。而M.C. Srivas對MapR發(fā)展制定透明的計劃則有力的駁斥了周圍所有指責(zé)的聲音。同時他表示Hadoop雖然以足夠強大,但仍需不斷精雕細(xì)琢。
MapR與Google發(fā)展軌跡相似
實際上Google并沒有實際使用Hadoop(Google的云計算基礎(chǔ)架構(gòu)模式包括四個相互獨立又緊密結(jié)合在一起的系統(tǒng),包括Google建立在集群之上的文件系統(tǒng)Google File System、針對Google應(yīng)用程序特點提出的MapReduce編程模式、分布式鎖機制Chubby以及Google開發(fā)的模型簡化的大規(guī)模分布式數(shù)據(jù)庫BigTable),而Yahoo!和Facebook的大數(shù)據(jù)處理平臺就是從基于Google研究論文中的內(nèi)容發(fā)展而來的。
Cloudera的COO Kirk Dunn向《連線》表示“Google、Facebook和Yahoo!都已經(jīng)證明了Hadoop平臺正處在黃金時期。Google、Facebook和Yahoo!公司內(nèi)部的成千上萬的節(jié)點已經(jīng)運行多年。雖然Yahoo!和Facebook使用基于Hadoop的成千上萬臺普通服務(wù)器來處理前所未有的海量數(shù)據(jù),但大多數(shù)企業(yè)需要處理的數(shù)據(jù)量并沒有Yahoo!或Facebook那么多,較小的集群平臺就足以滿足大多數(shù)企業(yè)的業(yè)務(wù)的需要?!?/p>
同時M.C. Srivas再次強調(diào)了開源版Hadoop的不足,例如至今仍然困擾開源版Hadoop的“單點故障(即如果主節(jié)點異常,任務(wù)執(zhí)行情況會丟失,數(shù)據(jù)可能會損壞)”。Yahoo!和Facebbok可以聘請了50至70名工程師來處理諸如此類的事件,而其他公司卻沒有相關(guān)的人員。
更多詳細(xì)信息,請您微信關(guān)注“計算網(wǎng)”公眾號: