(鄭柯 翻譯 )Amazon Web Services (AWS)團(tuán)隊(duì)公布了一系列資源,瞄準(zhǔn)科學(xué)社區(qū)對高性能計(jì)算的需要。AWS特別強(qiáng)調(diào):在Amazon云環(huán)境中,他們的“spot價(jià)格體系”市場可以提供價(jià)格優(yōu)惠的海量規(guī)模計(jì)算能力。
科學(xué)組織在處理數(shù)據(jù)分析時(shí),常常要面對海量計(jì)算活動(dòng)的需求。在AWS團(tuán)隊(duì)指出的一個(gè)案例研究中,一家排名全球前五的制藥公司在尋找分子建模方法,以處理數(shù)百萬種化合物組合。有了Cycle Computing的幫助,該公司在AWS上使用一個(gè)有30000個(gè)核的集群,僅用不到8個(gè)小時(shí)就完成了任務(wù)。該集群跨越兩個(gè)大陸,使用將近27T內(nèi)存,每小時(shí)花費(fèi)1279美元。Cycle Computing指出:他們的客戶從未想過在公司內(nèi)部完成這樣的科學(xué)分析,因?yàn)闀阉麄冏约簲?shù)據(jù)中心所有的資源消耗殆盡,而且長達(dá)數(shù)周。如果一家組織試圖在內(nèi)部完成如此重大的計(jì)算任務(wù),常常需要非常大量的CPU,而且在任務(wù)啟動(dòng)之前會一直處于空閑狀態(tài)。這也是Microsoft在與Pharm Exec的訪談中提到的:
看看所有進(jìn)入蛋白質(zhì)折疊【譯注】的數(shù)據(jù)。有研究大型分子產(chǎn)品的公司,這些產(chǎn)品一般被稱為單克隆抗體(monoclonal antibody)。這些分子的活動(dòng)主要是如何把自己折疊起來。在研究過程中,他們希望看到產(chǎn)品的基本序列,也想計(jì)算出分子的折疊過程。傳統(tǒng)方式中,他們會維護(hù)海量的CPU,這些CPU的計(jì)算圍繞著上述活動(dòng)展開,一般需要70個(gè)小時(shí)才能完成整個(gè)的蛋白質(zhì)折疊分析。使用基于云的基礎(chǔ)設(shè)施模式,服務(wù)器不需要一直開機(jī)。科學(xué)家可以在需要的時(shí)候再分析數(shù)據(jù),不需要,服務(wù)器就不必運(yùn)行。
AWS聲稱:這個(gè)由Cycle Computing管理的計(jì)算集群不僅僅在規(guī)模和性能上令人側(cè)目,同時(shí)在價(jià)格上也非常合算,因?yàn)樗麄兪褂昧薙pot Instance實(shí)例。與Reserved或On-Demand EC2實(shí)例不同,啟動(dòng)Spot實(shí)例是投標(biāo)過程的一部分??蛻糁贫ǔ鏊麄冊敢鉃镾pot實(shí)例每小時(shí)支付多少錢,只要Spot的價(jià)格仍然低于客戶給出的閾值,Spot實(shí)例就會一直運(yùn)行。當(dāng)價(jià)格閾值超過后,Spot實(shí)例就會停止。Spot的價(jià)格會比Reserved或On-Demand實(shí)例的價(jià)格便宜50%,因此用它來完成只有財(cái)務(wù)上合算時(shí)才運(yùn)行的、低優(yōu)先級的計(jì)算工作,或是補(bǔ)充已有的On-Demand負(fù)載,都是不錯(cuò)的選擇。
在新的“Spot and Science”頁面上,對于如何利用類似Spot市場提供的這些短時(shí)計(jì)算資源,AWS團(tuán)隊(duì)點(diǎn)出了一些架構(gòu)上的考量。AWS提出四種架構(gòu)風(fēng)格,可以作為容納潛在中斷風(fēng)險(xiǎn)的解決方案,包括:Map/Reduce、Grid、基于隊(duì)列的、以及基于檢查點(diǎn)(Checkpoint)的架構(gòu)。每種風(fēng)格要么建議使用可快速完成的小量工作負(fù)載,要么建議當(dāng)運(yùn)行主機(jī)中斷時(shí)重新運(yùn)行,或是使用檢查點(diǎn)定期保存工作。
AWS的“Spot and Science”頁面還包括案例研究、用例展示、成本節(jié)省分析、輔導(dǎo)和架構(gòu)指南。即使用戶不屬于科學(xué)社區(qū),如果希望用云完成高性能計(jì)算,也可以找到在這些用例中找到相關(guān)信息。HPC in the Cloud網(wǎng)站認(rèn)為:
制藥公司對云有相對高的使用率,這意味著對于其他公司來說,即使他們不需要找到疾病治愈方法或是改善人們的健康,他們也可以參考這個(gè)行業(yè)的案例,以了解云在真實(shí)世界中的使用方法。
【譯注】蛋白質(zhì)折疊(protein folding):蛋白質(zhì)的基本單位為氨基酸,而蛋白質(zhì)的一級結(jié)構(gòu)指的就是其氨基酸序列,蛋白質(zhì)會由所含氨基酸殘基的親水性、疏水性、帶正電、帶負(fù)電……等等特性通過殘基間 的相互作用而折疊成一立體的三級結(jié)構(gòu)。雖然蛋白質(zhì)可在短時(shí)間中從一級結(jié)構(gòu)折疊至立體結(jié)構(gòu),研究者卻無法在短時(shí)間中從氨基酸序列計(jì)算出蛋白質(zhì)結(jié)構(gòu),甚至無法 得到準(zhǔn)確的三維結(jié)構(gòu)。因此,研究蛋白質(zhì)折疊的過程,可以說是破譯“第二遺傳密碼”——折疊密碼(folding code)的過程。具體可參考百度百科。