M.C. Srivas表示在成立MapR之前他曾經(jīng)會見過Cloudera的創(chuàng)始人并考慮加入其中。但Cloudera希望像Red Hat做Linux那樣圍繞Hadoop平臺提供支持、服務(wù)和更多軟件盈利。而這與M.C. Srivas的理念并不相符。他認(rèn)為Hadoop還有非常多漏洞需要彌補。
于是他通過熟人與Calista Systems(虛擬化軟件商,2008年初被Microsoft收購)的CEO John Schroeder相識,并于2009年共同創(chuàng)建了MapR公司。現(xiàn)今,MapR的產(chǎn)品已為存儲巨頭EMC推出的Greenplum HD企業(yè)版Hadoop提供技術(shù)。
Hadoop的未來
據(jù)M.C. Srivas和Schroeder介紹,他們的Hadoop發(fā)行版在許多特性上領(lǐng)先其他基于開源Hadoop的發(fā)行版。雖然其他人并不這么認(rèn)為,但這是不爭的事實,MapR的產(chǎn)品克服了其他開源版Hadoop的固有缺陷。
Hadoop實現(xiàn)了被稱之為HDFS(Hadoop Distributed File System)的分布式文件系統(tǒng)和被稱之為MapReduce的大數(shù)據(jù)運算平臺。MapReduce依賴于HDFS實現(xiàn)。通常MapReduce會將目標(biāo)的計數(shù)的數(shù)據(jù)分為許多小塊,HDFS將每個塊復(fù)制若干份以確保系統(tǒng)的可靠性,同時按照一定的規(guī)則將數(shù)據(jù)塊放置在集群中不同的機器上,以便MapReduce在數(shù)據(jù)宿主機器上進行最快捷的計算。
M.C. Srivas表示在2年的發(fā)展期間,MapR基本上重構(gòu)了文件系統(tǒng)。同時改進了Hadoop的“job tracker”使其能跨機器的任務(wù)分配并管理其執(zhí)行。改進了Namenode,這是一個中心服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的Namespace以及客戶端對文件的訪問。而開源版本的Hadoop仍存在單點故障和Namenode處理文件數(shù)量受限的狀況。
Cloudera的Kirk Dunn也承認(rèn)M.C. Srivas提到的開源Hadoop存在的缺陷,但他表示在評價開源Hadoop具備的優(yōu)勢時,還有一些其他的因素需要考慮。同時開源版的Hadoop也會最終克服固有的缺陷,最終所有代碼因為開放而變得獨具優(yōu)勢!眾所周知,開源的優(yōu)勢可得到社區(qū)的廣泛支持。你是愿意依靠成百上千的工程師在重要問題上給予支持?還是依靠只有少數(shù)精英工程師的公司?
從本質(zhì)上講,Hadoop是主要還是一個“批處理”系統(tǒng)。Hadoop需要一段時間處理數(shù)據(jù)以便得到結(jié)果。Hadoop現(xiàn)今還不具備實時生成信息的能力。隨著搜索引擎需求的發(fā)展,Google已經(jīng)放棄了MapReduce,并轉(zhuǎn)移到被稱之為“Caffeine”的平臺之上,新平臺可使搜索引擎的速度更快。John Schroeder暗示MapR也在朝類似的“方向”努力,盡管其“解決方案”可能看起來與“Caffeine”非常不同。
M.C. Srivas指出現(xiàn)今的Hadoop與在谷歌內(nèi)部運行的版本完全不同。除了GFS和MapReduce以外,Google還在其軟件層運行著被稱之為“Borg”的作業(yè)調(diào)度和監(jiān)控系統(tǒng),其主要負(fù)責(zé)管理數(shù)據(jù)中心內(nèi)的服務(wù)器群集。Google現(xiàn)在還沒公布“Borg”的相關(guān)信息。和所有Google的前員工一樣,M.C. Srivas不能透露其詳細(xì)信息。但M.C. Srivas表示你不能錯誤地認(rèn)為Hadoop就是Google的基礎(chǔ)設(shè)施。像Google這樣的公司,他們肯定有他們自己且尚未公布的秘密武器。
Hadoop要想成功就必須繼續(xù)發(fā)展。而MapR已經(jīng)具備了一切。
更多詳細(xì)信息,請您微信關(guān)注“計算網(wǎng)”公眾號: