作為世界上最大的社交網(wǎng)絡(luò),F(xiàn)aceBook(臉譜)公司一天積聚的數(shù)據(jù)比很多大公司一年產(chǎn)生的數(shù)據(jù)還要多。目前按照臉譜的做法,集群存儲(chǔ)了30千萬億字節(jié)的數(shù)據(jù),大概是Library of Congress存儲(chǔ)信息數(shù)量的3000倍。臉譜數(shù)據(jù)倉庫在過去一年里增長(zhǎng)了三分之一還多。
為了適應(yīng)目前極速飆升的數(shù)據(jù)量,今年初臉譜公司采取積極舉措,將不斷擴(kuò)容的Hadoop集群遷移到位于美國(guó)俄勒岡州Prineville市一座新建的更大規(guī)模的臉譜數(shù)據(jù)中心。據(jù)臉譜公司介紹,此次臉譜史無前例的最大規(guī)模的數(shù)據(jù)遷移行動(dòng)上個(gè)月已經(jīng)完成。
臉譜公司數(shù)據(jù)基礎(chǔ)架構(gòu)團(tuán)隊(duì)的工程師保羅.楊本周在公司的博客上介紹了本次行動(dòng)的細(xì)節(jié)。楊表示遷往全新的臉譜數(shù)據(jù)中心是非常有必要的,因?yàn)楣疽呀?jīng)沒有可用的能源和占地空間,無法為Hadoop集群增加新的節(jié)點(diǎn)。
不過楊在接受計(jì)算機(jī)周刊采訪時(shí)沒有說起此事。
臉譜公司對(duì)Hadoop集群的體驗(yàn)和興趣正在逐漸濃厚,越來越多的公司開始使用Apache開源軟件來捕捉和分析大容量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
Hadoop集群的吸引力在于能將非常大型的數(shù)據(jù)集分解為小規(guī)模數(shù)據(jù)塊的能力,之后被分解后的數(shù)據(jù)塊被分配到一系列商用硬件系統(tǒng)中實(shí)現(xiàn)更快快速的處理。
本周發(fā)布的一份Ventana Research研究報(bào)告顯示,越來越多的企業(yè)用戶開始使用Hadoop來收集和分析大容量非結(jié)構(gòu)化和機(jī)器生成的信息,諸如日志和事件數(shù)據(jù),搜索引擎結(jié)果,來自社交網(wǎng)站的文本和多媒體內(nèi)容等。
臉譜公司介紹說,他們使用Hadoop技術(shù)來收集和存儲(chǔ)其會(huì)員每天生成的數(shù)百萬條的文件內(nèi)容。使用開源Apache Hive數(shù)據(jù)倉庫工具集對(duì)這些數(shù)據(jù)進(jìn)行分析。
其他使用Hadoop來從事類似工作的超大容量數(shù)據(jù)型企業(yè)還包括易趣,亞馬遜和雅虎。雅虎公司是Hadoop代碼的主要貢獻(xiàn)者。
據(jù)2010年3月的博客顯示,臉譜公司的Hadoop集群成為世界上最大的計(jì)算機(jī)集群。這個(gè)集群由2000臺(tái)計(jì)算機(jī),800臺(tái)16核系統(tǒng)和1200臺(tái)8核系統(tǒng)組成。集群中每個(gè)系統(tǒng)存儲(chǔ)了大概12萬億到24萬億字節(jié)的數(shù)據(jù)。
楊在他的博客中寫道,臉譜公司制定了一系列將集群遷移到新建數(shù)據(jù)中心的措施。
公司從物理上將每個(gè)節(jié)點(diǎn)遷移到新的位置,據(jù)楊介紹,這項(xiàng)任務(wù)在充足人手的齊心協(xié)力下在幾天內(nèi)就完成了。公司決定采用這條路線是為了避免導(dǎo)致出乎意料的長(zhǎng)時(shí)間宕機(jī)。
臉譜公司決定構(gòu)建一座全新的,規(guī)模更大的Hadoop集群,將舊集群上的數(shù)據(jù)簡(jiǎn)單復(fù)制過來。所選擇的方法要更加復(fù)雜一些是因?yàn)槟樧V公司打算復(fù)制的源數(shù)據(jù)位于實(shí)時(shí)系統(tǒng)上,這個(gè)系統(tǒng)中充滿了不斷被創(chuàng)建和刪除的文件,楊在他的博客中這樣寫道。
因此臉譜公司的工程師們構(gòu)建了全新的復(fù)制系統(tǒng)來應(yīng)對(duì)規(guī)??涨暗募阂?guī)模和數(shù)據(jù)負(fù)載。楊表示“由于復(fù)制可以最大化的減少宕機(jī)時(shí)間,因此我們決定選擇這種方式來完成大規(guī)模遷移”。
根據(jù)楊的介紹,數(shù)據(jù)復(fù)制工程分兩步完成:
首先,來自原始Hadoop集群的大部分?jǐn)?shù)據(jù)和目錄使用名為DistCp的開源工具被分批復(fù)制到新的集群上。
批量復(fù)制完成后在文件和數(shù)據(jù)上所發(fā)生的所有變化也將使用臉譜公司全新研發(fā)的文件復(fù)制系統(tǒng)被復(fù)制到新的集群上。由Hive插件捕捉到的文件更改也在臉譜研發(fā)人員的研究過程當(dāng)中。
在轉(zhuǎn)移的過程中,臉譜公司會(huì)暫時(shí)關(guān)閉Hadoop集群創(chuàng)建新文件的能力,讓其復(fù)制系統(tǒng)完成將所有數(shù)據(jù)復(fù)制到新集群上的工作。然后更改其域名服務(wù)器設(shè)置以便他們能指向新的服務(wù)器集群。
根據(jù)楊的說法,快速的內(nèi)部構(gòu)建數(shù)據(jù)復(fù)制工具是保證遷移工程成功的關(guān)鍵。
除了使用數(shù)據(jù)遷移外,復(fù)制工具被用來為Hadoop集群提供全新的災(zāi)難恢復(fù)功能。
楊表示“我們認(rèn)為有效的保留正確復(fù)制的大規(guī)?;顒?dòng)集群是可能的,只會(huì)產(chǎn)生小部分的延遲。通過復(fù)制系統(tǒng),一旦發(fā)生緊急情況,整個(gè)業(yè)務(wù)運(yùn)作使用相對(duì)較少的工作就可以被轉(zhuǎn)移到復(fù)制集群上去”。