當下中國超大規(guī)模的單Master節(jié)點Hadoop集群在哪里?在淘寶。據(jù)悉,淘寶Hadoop集群擁有2860個節(jié)點,清一色基于英特爾處理器的x86服務(wù)器,其總存儲容量50PB,實際使用容量超過40PB,日均作業(yè)數(shù)高達15萬,為淘寶網(wǎng)的日常運營做出了關(guān)鍵支撐。對了,它還有一個很美麗的名字:“云梯”。
近日,《網(wǎng)絡(luò)世界》記者有幸采訪到了阿里集團技術(shù)共享平臺核心系統(tǒng)研發(fā)部海量數(shù)據(jù)技術(shù)專家羅李。作為淘寶“云梯”集群元老級創(chuàng)建者,以及目前的負責人,他詳細講解了Hadoop在淘寶的應(yīng)用與發(fā)展。
“云梯”的前世今生
“在2008年之前,淘寶內(nèi)部一些業(yè)務(wù)團隊,紛紛搭建了自己的Hadoop集群,但規(guī)模都很小,出了問題也都各自解決。”羅李說,“考慮到淘寶的業(yè)務(wù)確實對分布式計算系統(tǒng)有需要,再加上這種分散模式小集群的資源利用率不高,整個集團就決定建立一個統(tǒng)一的、大的分布式計算集群,為各業(yè)務(wù)線服務(wù)。”
至于為什么選擇Hadoop,羅李表示,當時能夠達到商用水準的分布式計算技術(shù)也只有Hadoop。不過,他說:“當時整個淘寶并沒有一個對Hadoop內(nèi)核真正了解的人,后來是抽調(diào)了雅虎中國的核心技術(shù)人員,在2008年10月成立了專門團隊。”
“2008年我也是剛進淘寶,就直接被分配到這個團隊,那時整個團隊包括我才四個人。到2009年,我們的‘云梯’集群剛搭起來的時候,才300臺規(guī)模。”羅李告訴記者。
短短不過四年時間,“云梯”集群已經(jīng)擴張到近2900臺規(guī)模,成為中國規(guī)模最大的單Master節(jié)點Hadoop集群。而伴隨“云梯”集群成長的羅李,也成為了中國當下為數(shù)不多的、真正精通Hadoop的高級技術(shù)人才。
Hadoop在淘寶的發(fā)展
談起“云梯”集群名字的由來,這竟是一個有幾分“無心插柳柳成行”意味的故事。原來,出于安全性等多重考慮,當時阿里集團高層是決心自主研發(fā)一套有獨立自主知識產(chǎn)權(quán)的分布式計算系統(tǒng),即后來代號為“飛天”的大規(guī)模分布式計算系統(tǒng)。而羅李他們研發(fā)的這個基于開源Hadoop技術(shù)的集群,最初只是被定位成一個臨時的、有過渡性質(zhì)的系統(tǒng),目的是讓淘寶的業(yè)務(wù)人員提前熟悉和使用分布式計算系統(tǒng),待“飛天”成熟后再將業(yè)務(wù)移植過來。
“我們一開始就知道我們是為他們(‘飛天’系統(tǒng))鋪路的,所以,既然他們叫‘飛天’,那我們就叫‘云梯’好了,隱含奉獻的意思。”羅李說。
只是,世事難料,大家都沒有想到,四年后的今天大數(shù)據(jù)和Hadoop會如此之火,發(fā)展前景堪稱一片光明,而淘寶憑借“云梯”集群也成為該技術(shù)領(lǐng)域的應(yīng)用先鋒。當然,阿里集團一直在堅持研發(fā)“飛天”集群,并取得了階段性的成果。因此,在阿里集團內(nèi)部,其實是“飛天”和“云梯”兩大分布式計算系統(tǒng)并立的局面。
在應(yīng)用中發(fā)展
從2009年的300臺發(fā)展到目前2860臺,這絕不只是一個機器簡單堆疊的過程,而是耗費了淘寶研發(fā)人員無數(shù)的智慧與汗水。Hadoop技術(shù)本身在淘寶也獲得了長足的發(fā)展。
淘寶對Hadoop進行深度重構(gòu)的最重要一次實踐,當屬該公司根據(jù)自身的業(yè)務(wù)需求,開發(fā)了自己的Hadoop分支——ADFS。
據(jù)介紹,ADFS主要解決的是HDFS NameNode在設(shè)計上存在單點故障、內(nèi)存瓶頸(因為所有的數(shù)據(jù)都是存入內(nèi)存,長期以往,NameNode必將遭遇內(nèi)存擴展瓶頸),以及集群重啟時間過長,期間無法對集群進行寫操作等問題。