美國(guó)國(guó)家科學(xué)基金會(huì)(NSF)資助的云測(cè)試平臺(tái)Chameleon位于芝加哥大學(xué)和德克薩斯州高級(jí)計(jì)算中心,其開通運(yùn)營(yíng)不到一年的時(shí)間,但已在推動(dòng)HPC容器領(lǐng)域的創(chuàng)新研究,百億億次的操作系統(tǒng)和網(wǎng)絡(luò)安全等方面有了不俗的業(yè)績(jī)。為了從研究的角度了解這個(gè)專用測(cè)試平臺(tái),行業(yè)媒體邀請(qǐng)芝加哥大學(xué)計(jì)算研究所首席研究員凱特·科赫和德克薩斯大學(xué)奧斯汀分校高級(jí)計(jì)算中心主任丹尼·斯坦茲歐文對(duì)此進(jìn)行了討論。
斯坦茲歐文說,“Chameleon是專注于云計(jì)算的研究平臺(tái),致力于如何建立一個(gè)更好的云,特別是在云計(jì)算科學(xué)研究方面。”計(jì)算機(jī)科學(xué)家為了探索可編程云服務(wù)系統(tǒng)的設(shè)計(jì)概念和核心技術(shù),需要一個(gè)大型的開放式云計(jì)算的研究平臺(tái)。就像租用房子比買房子在使用上有著更多的限制一樣,所以對(duì)于大多數(shù)云資源的情況下,但Chameleon在baremetal(裸金屬)上進(jìn)行實(shí)驗(yàn)。”
“這與其說是一個(gè)試驗(yàn)臺(tái),不如說是一個(gè)科學(xué)儀器,,而且這個(gè)名字也讓人稍微有些混亂。”科赫說。
“擁有計(jì)算機(jī)科學(xué)的實(shí)驗(yàn)測(cè)試平臺(tái)意味著用戶能夠嘗試和驗(yàn)證他們對(duì)這些資源的研究。于是,他們提出了一個(gè)假設(shè),例如,他們想出了一個(gè)新的研究管理算法,或新的網(wǎng)絡(luò)算法,或新的做法,或者是任何一個(gè)分布式系統(tǒng)或操作系統(tǒng),或新的虛擬化系統(tǒng),或一個(gè)新的架構(gòu)新的安全方法。他們想出了各種有趣的想法,我們目前將通過計(jì)算機(jī)科學(xué)能夠驗(yàn)證科學(xué)儀器的研究,提出開放挑戰(zhàn)的解決方案。這意味著,如果他們有一個(gè)假設(shè),新的算法能夠解決一些更快或更有效的研究,他們將能夠獲得資源和運(yùn)行實(shí)驗(yàn)的時(shí)間的證明或者反駁這個(gè)假設(shè)。”
Chameleon與眾不同的是訪問,并提供了可重構(gòu)的水平。“計(jì)算機(jī)科學(xué)需要研究的類型與研究領(lǐng)域的科學(xué)家計(jì)劃的類型有點(diǎn)不同。”科赫解釋道,“域名科學(xué)家執(zhí)行他們的代碼,他們并不需要重新編譯內(nèi)核。它們并不需要深入資源和侵入訪問;計(jì)算機(jī)科學(xué)家做的。它是計(jì)算機(jī)科學(xué),其中計(jì)算機(jī)科學(xué)家能夠證明或否定一個(gè)科學(xué)儀器假設(shè)。”
斯坦茲歐文也強(qiáng)調(diào)了這一方面的完全控制。“雖然Chameleon沒有超級(jí)計(jì)算機(jī)Stampede那么大,我們沒辦法給研究者提供Stampede,但我們可以為他們提供Chameleon,因?yàn)槲覀儗?duì)配套生產(chǎn)科學(xué)進(jìn)行了多年的研究和控制。”他說。“以我多年經(jīng)營(yíng)大型HPC設(shè)施的經(jīng)驗(yàn),我們不得不說計(jì)算機(jī)科學(xué)的研究者,如果想提高水平或發(fā)生變化,可能影響系統(tǒng)上的其他用戶或使系統(tǒng)不穩(wěn)定,而這些事情我們始終無法改變。所以我們真的可以說,Chameleon是系統(tǒng)軟件研究界或CS研究社區(qū)要對(duì)機(jī)器的運(yùn)作方式產(chǎn)生根本性的變化的第一個(gè)系統(tǒng)。”
該環(huán)境包括650多核心的云節(jié)點(diǎn)(具有14500個(gè)核心處理器),兩個(gè)數(shù)據(jù)中心的總磁盤空間達(dá)到了5PB,站點(diǎn)之間網(wǎng)絡(luò)的連接達(dá)到了100Gbps。當(dāng)前同類的硬件支持大規(guī)模的實(shí)驗(yàn),但在升級(jí)計(jì)劃可以添加異構(gòu)單元允許采取進(jìn)一步的實(shí)驗(yàn),異構(gòu)單元包括高容量的內(nèi)存,大容量的硬盤,GPU,以及協(xié)助處理器單元等。“今年晚些時(shí)候,我們?yōu)槟切┫MM(jìn)行加速器實(shí)驗(yàn)科學(xué)家增加GPU。我們將采用ARM處理器進(jìn)行能源效率的實(shí)驗(yàn)。我們會(huì)得到原子和其他各種有趣的異構(gòu)硬件。”科赫說。
Chameleon系統(tǒng)所需的硬件設(shè)施
Chameleon的用戶群已擴(kuò)大到600名研究人員開展的150多個(gè)項(xiàng)目。Chameleon允許用戶配置和測(cè)試不同的云架構(gòu)的一系列的問題,包括機(jī)器學(xué)習(xí)和自適應(yīng)操作系統(tǒng),氣候模擬,洪水預(yù)報(bào)和許多其他測(cè)試。這些問題支持Chameleon研究的重要組織原則。
“如果你看一下在計(jì)算機(jī)科學(xué)中有趣的問題,它們都與規(guī)模有關(guān)。”科赫評(píng)論道。“這其中就有大數(shù)據(jù)的問題,而關(guān)于云計(jì)算或云基礎(chǔ)架構(gòu)推出的創(chuàng)新技術(shù)也涉及到高性能計(jì)算這些非常有趣的問題。例如,我們要繼續(xù)運(yùn)行高性能計(jì)算數(shù)據(jù)中心,我們是一直采用批處理計(jì)算類型的方式還是采取按需訪問的方式?”
“隨著儀器的價(jià)格下降,小型傳感器,個(gè)人設(shè)備,可穿戴的互聯(lián)網(wǎng)連接設(shè)備,以及串聯(lián)其它互聯(lián)網(wǎng)的設(shè)備,以及社交媒體都會(huì)生成大量的數(shù)據(jù)。”科赫說,“這并不總是大數(shù)據(jù),它有時(shí)是大量時(shí)間積累的小塊數(shù)據(jù),但我們的洞察力和我們的儀器能力,使我們現(xiàn)在實(shí)現(xiàn)了前所未有的環(huán)境,它將繼續(xù)增長(zhǎng)。因此,現(xiàn)在的問題是什么新的數(shù)據(jù)處理模式,我們將如何與這個(gè)高度儀表的環(huán)境進(jìn)行互動(dòng)?這是計(jì)算機(jī)科學(xué)的所有有趣的研究問題,并且他們都具有大規(guī)模的元素。”
大多數(shù)項(xiàng)目都是使用多個(gè)節(jié)點(diǎn)的多個(gè)機(jī)架,而使用整個(gè)系統(tǒng)的機(jī)會(huì)不會(huì)太多,斯坦茲歐文表示,研究人員正在訪問的Chameleon已經(jīng)完成了單個(gè)節(jié)點(diǎn)的工作,并已呈現(xiàn)出一定的規(guī)模。而感興趣的研究人員可以直接通過Chameleon的門戶網(wǎng)站了解Chameleon的配置過程。
Chameleon的一個(gè)用戶是匹茲堡大學(xué)的學(xué)生周玉宇。周玉宇一直在研究容器和虛擬化之間的性能比較,并將計(jì)劃對(duì)這種類型的中間地帶提出一個(gè)解決方案。
周玉宇向約翰·蘭格(美國(guó)匹茲堡大學(xué))和阿貢國(guó)家實(shí)驗(yàn)室的計(jì)算機(jī)科學(xué)家凱特·科赫介紹了他們?nèi)绾卫肅hameleon了解虛擬化(例如以KVM為例)和容器的適用性(例如Docker)技術(shù)的高性能計(jì)算應(yīng)用程序。該團(tuán)隊(duì)使用的五種微基準(zhǔn)和三個(gè)微應(yīng)用作為測(cè)試用例。結(jié)果顯示Docker在大多數(shù)情況下表現(xiàn)比KVM更好。周玉宇的下一步計(jì)劃是向外擴(kuò)展到更多的節(jié)點(diǎn),并調(diào)查結(jié)果的根本原因。他也想了解如何托管設(shè)施的位置是否會(huì)影響性能。
“這是一個(gè)非常有趣的項(xiàng)目,這個(gè)項(xiàng)目對(duì)于Chameleon是一個(gè)真正需要獲得規(guī)模很好的例子,因?yàn)闉榱斯铝⒃肼暤挠绊?,例如,你需要在多個(gè)節(jié)點(diǎn)運(yùn)行周玉宇已經(jīng)能夠運(yùn)行數(shù)百個(gè)Chameleon的節(jié)點(diǎn)來驗(yàn)證她的各種假說。”科赫說。
另一個(gè)有趣的用戶故事是亞利桑那大學(xué)運(yùn)行代碼尋找系外行星項(xiàng)目。其項(xiàng)目是處理圖像數(shù)據(jù),以識(shí)別一個(gè)行星的獨(dú)特的簽名,這要求臺(tái)式計(jì)算機(jī)計(jì)算幾個(gè)月的時(shí)間。學(xué)生們轉(zhuǎn)向云計(jì)算,因?yàn)樗峁┝瞬⑿谢墓ぷ髁鞒?,并進(jìn)行高速處理。他們選擇使用Chameleon,而不是因?yàn)樗昧斯苍苹蛐@資源,而是其提供了細(xì)粒度的控制。使用Chameleon,和他們開發(fā)的一個(gè)自定義的研究應(yīng)用,被稱為find-r,研究人員的運(yùn)行時(shí)間能夠從四個(gè)月縮短至24-48小時(shí)。該研究的應(yīng)用代碼通過GitHub上已提供給社區(qū)。
研究者甚至使用Chameleon來解決數(shù)據(jù)泄露問題。這項(xiàng)研究強(qiáng)調(diào)指出,阿肯色大學(xué)派恩拉夫?qū)W院網(wǎng)絡(luò)安全研究人員團(tuán)隊(duì),北卡羅萊納州的AT&T州立大學(xué)和路易斯安那州立大學(xué)都能夠模擬惡意攻擊,然后開發(fā)和測(cè)試上Chameleon他們的方法。該項(xiàng)目探索了三種情形:從云計(jì)算外部攻擊,從云計(jì)算內(nèi)部攻擊,或內(nèi)外同時(shí)攻擊。研究人員正在努力強(qiáng)化入侵檢測(cè)系統(tǒng),使他們更有效阻止多級(jí)入侵攻擊。該小組已經(jīng)編寫并提交了多篇論文,并希望與甲骨文、思科系統(tǒng)和微軟合作。
百億億級(jí)連接–Argo計(jì)劃
Chameleon也是國(guó)際ARGO計(jì)劃的關(guān)鍵資源,是一個(gè)為期三年的努力設(shè)計(jì)和原型的百億億級(jí)操作系統(tǒng)和運(yùn)行時(shí)的關(guān)鍵資源。該項(xiàng)目涉及三個(gè)美國(guó)國(guó)家級(jí)實(shí)驗(yàn)室和四所大學(xué)的40名研究人員的研究工作。
據(jù)行業(yè)媒體報(bào)道,阿貢國(guó)家實(shí)驗(yàn)室的博士后研究員斯旺·皮爾那魯,是Argo計(jì)劃的合作者,他通過Chameleon測(cè)試Argo計(jì)劃的四大創(chuàng)新:(1)全球操作系統(tǒng),(2)節(jié)點(diǎn)操作系統(tǒng),(3)并發(fā)運(yùn)行時(shí)間,(4)控制面板(BEACON)。
項(xiàng)目的成功很大程度上基于OpenStack的Chameleon可以能夠使用CHI配置軟件,這是該項(xiàng)目的成功的關(guān)鍵。“我們想驗(yàn)證整個(gè)項(xiàng)目,包括基于補(bǔ)丁的Linux內(nèi)核NodeOS。”皮爾那魯說。“我們可以做到這一點(diǎn),在生產(chǎn)高性能計(jì)算設(shè)備都嚴(yán)格控制,但是沒有人等著我們改變這樣一個(gè)重要組成部分,我們需要抓緊時(shí)間部署。”據(jù)悉,Argo系統(tǒng)有望形成新一代的領(lǐng)先級(jí)機(jī)器的基礎(chǔ),并計(jì)劃在2018-2020年期間部署。