高性能計(jì)算(HPC)專家Jason Stowe最近向他的兩位工程師同事問(wèn)了一個(gè)簡(jiǎn)單的問(wèn)題:能不能在云中搭建一個(gè)包含1萬(wàn)個(gè)核心的集群?
Stowe是Cycle Computing公司的創(chuàng)始人兼CEO,這是一家?guī)椭蛻艨焖俣咝У孬@取超級(jí)計(jì)算能力的公司,主要服務(wù)對(duì)象是大學(xué)和大型研究機(jī)構(gòu)。
Cycle Computing已經(jīng)在亞馬遜的彈性云(EC2)上搭建了幾個(gè)集群,目前可擴(kuò)充到數(shù)千個(gè)核心。但是Stowe想要再上升一個(gè)臺(tái)階,將他的集群擴(kuò)展到1萬(wàn)個(gè)核心,雖然要在亞馬遜上配置1萬(wàn)個(gè)核心可能需要花費(fèi)大量的時(shí)間,但Stowe說(shuō)他還沒(méi)有見(jiàn)過(guò)有誰(shuí)能在一個(gè)HPC集群上實(shí)現(xiàn)這一量級(jí)的核心數(shù),因?yàn)檫@意味著需要采用一種批處理調(diào)度技術(shù),并運(yùn)行一個(gè)HPC優(yōu)化應(yīng)用。
“我們尚未找到更大規(guī)模的任何參照物,”Stowe說(shuō)。他曾對(duì)自己在亞馬遜上部署的Linux集群測(cè)試過(guò)運(yùn)算速度,要進(jìn)入全球最快超級(jí)計(jì)算機(jī)TOP500強(qiáng)榜單毫無(wú)問(wèn)題。
構(gòu)建如此規(guī)模的一個(gè)HPC系統(tǒng),首先要做的一件事就是要找到有這種計(jì)算需求的客戶。否則,如此大規(guī)模的計(jì)算環(huán)境就毫無(wú)意義。
對(duì)這種1萬(wàn)個(gè)計(jì)算核心云集群有需求的客戶就是舊金山的生物科技企業(yè)Genentech,該公司的科學(xué)家Jacob Corn需要這樣的計(jì)算能力來(lái)考察蛋白質(zhì)的相互鏈接,這項(xiàng)研究最終有可能引入醫(yī)學(xué)治療過(guò)程。Corn說(shuō),與1萬(wàn)核心的集群相比較,“我們所擁有的集群規(guī)模只有它的十分之一?!?/P>
在亞馬遜所建議的最佳時(shí)間,也就是3月1日午夜過(guò)后,Cycle Computing和Genentech開(kāi)始申請(qǐng)1萬(wàn)個(gè)計(jì)算核心。雖然亞馬遜提供了專為高性能計(jì)算而優(yōu)化過(guò)的虛擬機(jī)實(shí)例,但是據(jù)Stowe說(shuō),為了省錢,Cycle和Genentech還是選擇了“標(biāo)準(zhǔn)的CentOS”Linux集群。CentOS是基于Red Hat Linux的一個(gè)Linux版本。
這1萬(wàn)個(gè)核心是由每8個(gè)核心帶1250個(gè)實(shí)例構(gòu)成,此外還有8.75TB的RAM和2PB的磁盤空間。每次可向上擴(kuò)展數(shù)千個(gè)核心,僅需45分鐘便可配置完成整個(gè)集群。而且沒(méi)有出現(xiàn)問(wèn)題?!爱?dāng)我們申請(qǐng)第1萬(wàn)個(gè)核心時(shí),很順利就完成了,”Stowe說(shuō)。
該集群共運(yùn)行了8個(gè)小時(shí),費(fèi)用為8500美元,其中包含了亞馬遜和Cycle Computing的全部費(fèi)用。
Corn說(shuō),對(duì)于Genentech來(lái)說(shuō),這一次的高性能計(jì)算請(qǐng)求與自己購(gòu)買1萬(wàn)個(gè)核心的選擇相比,既便宜又好用。利用Genentech的現(xiàn)有資源執(zhí)行模擬計(jì)算原本需要數(shù)周或數(shù)月,而在亞馬遜上申請(qǐng)1萬(wàn)核心的集群進(jìn)行計(jì)算只用了8個(gè)小時(shí)。Genentech利用大量核心的集群獲得了極大的益處,因?yàn)樗挠?jì)算是“非常難以處理的并行計(jì)算問(wèn)題”,由于各節(jié)點(diǎn)間不存在通信需求,所以性能指標(biāo)是“隨著核心數(shù)的增加而線性增加的”,Corn說(shuō)。
為了配置這個(gè)集群,cycle使用了自己的CycleCloud軟件、Condor調(diào)度系統(tǒng)和開(kāi)源配置管理框架Chef。
Cycle還使用了自己研發(fā)的一些軟件來(lái)測(cè)試各種錯(cuò)誤,并在必要的時(shí)候重啟各節(jié)點(diǎn)。為了確保安全,該集群采用了安全-HTTP和128/256位高級(jí)加密標(biāo)準(zhǔn)進(jìn)行了加密。