今年3月,谷歌Alpha Go在與李世石九段的人機(jī)大戰(zhàn)中以4:1的成績(jī)勝出后名聲大噪,然而很少人知道它的背后有一臺(tái)默默穩(wěn)定運(yùn)行著的強(qiáng)大超級(jí)計(jì)算系統(tǒng)。不敢想象Alpha Go在對(duì)戰(zhàn)中若遇到系統(tǒng)“抽風(fēng)”宕機(jī)或是因“高燒”而無(wú)法穩(wěn)定運(yùn)行,結(jié)果又將是如何。
盡管宕機(jī)、存儲(chǔ)或網(wǎng)絡(luò)異常等事件對(duì)任務(wù)執(zhí)行周期內(nèi)的高性能計(jì)算機(jī)系統(tǒng)而言并不是大概率事件,但一旦發(fā)生,都有可能釀成災(zāi)難性的后果。一套完備且高效的高性能計(jì)算機(jī)穩(wěn)定運(yùn)行的運(yùn)維方案對(duì)于其使用者來(lái)說(shuō)日顯重要。
4月21日,在經(jīng)歷了6個(gè)月的試運(yùn)營(yíng)之后,中科曙光針對(duì)高性能計(jì)算集群推出的SaaS級(jí)專業(yè)化在線平臺(tái)EasyOP(Easy Operation的簡(jiǎn)稱)正式上線。
自去年11月EasyOP在全國(guó)高性能計(jì)算學(xué)術(shù)年會(huì)上亮相并宣布試運(yùn)營(yíng)之后,業(yè)界一直對(duì)曙光這款7*24小時(shí)在線運(yùn)維平臺(tái)的表現(xiàn)充滿期待。而從EasyOP試運(yùn)營(yíng)的數(shù)據(jù)反饋信息來(lái)看,曙光EasyOP的表現(xiàn)稱得上專業(yè)、全面,不負(fù)眾望。
曙光EasyOP在線運(yùn)維平臺(tái)正式上線發(fā)布儀式
試運(yùn)營(yíng)數(shù)據(jù)評(píng)析:專業(yè)、全面
試運(yùn)營(yíng)期間,EasyOP累計(jì)接入來(lái)自20組HPC集群的超過(guò)7800個(gè)節(jié)點(diǎn),應(yīng)用涵蓋CAE、氣象、海洋、物理、生物、材料及互聯(lián)網(wǎng)6大領(lǐng)域,對(duì)所有接入集群資產(chǎn)全面監(jiān)控的指標(biāo)超過(guò)180項(xiàng)。
從周期上看,EasyOP接入時(shí)間跨度分布合理,系統(tǒng)滿負(fù)載和低負(fù)載的情況均包含在內(nèi)。在監(jiān)控的7800多個(gè)節(jié)點(diǎn)中,CPU的最高和平均利用率為83%和70.1%,內(nèi)存的最高和平均利用率為40%和25.5%,存儲(chǔ)的最高和平均利用率為23%和20.3%。另外,在EasyOP接入的資源作業(yè)中,中短時(shí)長(zhǎng)作業(yè)占近70%,作業(yè)排隊(duì)率約為1/5。這種多線程任務(wù)下適于對(duì)HPC系統(tǒng)各子功能的全方位監(jiān)控。
統(tǒng)計(jì)顯示,試運(yùn)營(yíng)半年期間,全部集群共自動(dòng)觸發(fā)近2900條通知信息,其中2281條是因計(jì)算節(jié)點(diǎn)主要部件溫度升高觸發(fā)的輕微類通知。嚴(yán)重類通知僅有3條,其中兩條起因自共享存儲(chǔ)掛載故障,一條系嚴(yán)重級(jí)別溫度過(guò)高導(dǎo)致節(jié)點(diǎn)自動(dòng)關(guān)機(jī),從側(cè)面反映了曙光集群系統(tǒng)的高可靠性。
應(yīng)時(shí)而生,讓HPC運(yùn)維變得簡(jiǎn)單
目前,在基于HPC的IT中心建設(shè)中,幾乎所有公司只是就某個(gè)或幾個(gè)離散的環(huán)節(jié)提供服務(wù),難以做到全生命周期的運(yùn)維服務(wù)。而第三方HPC服務(wù)商由于并不研發(fā)和生產(chǎn)HPC系統(tǒng),對(duì)于HPC運(yùn)行中產(chǎn)生問(wèn)題的分析和解決效率與HPC專業(yè)出身的曙光相比還有不小的差距,不足以保障用戶HPC高效運(yùn)轉(zhuǎn)。
EasyOP在線運(yùn)維平臺(tái)
針對(duì)此,曙光打造了擁有五大關(guān)鍵技術(shù)的EasyOP——監(jiān)控?cái)?shù)據(jù)實(shí)時(shí)遠(yuǎn)程采集、海量數(shù)據(jù)存儲(chǔ)與展示、故障的分析與定位技術(shù)、大量數(shù)據(jù)統(tǒng)計(jì)與分析、移動(dòng)終端的集成與推送,應(yīng)時(shí)而生的曙光EasyOP平臺(tái)使HPC在線運(yùn)維變得簡(jiǎn)單。
HPC運(yùn)維人員不僅可以隨時(shí)了解HPC集群的運(yùn)營(yíng)情況和故障,還可通過(guò)網(wǎng)頁(yè)或微信等在線咨詢服務(wù)與線上專家進(jìn)行一對(duì)一的交流。EasyOP還會(huì)將常見、有代表性的故障解決方案上傳至知識(shí)庫(kù),以便于HPC運(yùn)維人員積累。
來(lái)自中科院物理所的徐力方研究員表示:“HPC集群的運(yùn)維此前一直是我們的艱巨任務(wù),非常辛苦。接入EasyOP后,我們的運(yùn)維壓力大大降低了,運(yùn)維成本和人力投入也都減少了,而且HPC集群的安全性和使用效率也得以提升。我們終于解放了?!?/p>
懂HPC,更懂HPC運(yùn)維
“EasyOP是曙光結(jié)合‘互聯(lián)網(wǎng)+’和HPC的產(chǎn)物,不僅幫助用戶維護(hù)HPC系統(tǒng),還有望利用用戶的系統(tǒng)為其創(chuàng)造更多的價(jià)值?!笔锕飧笨偛蒙吵罕硎?,“EasyOP通過(guò)提供運(yùn)維、調(diào)優(yōu)等服務(wù),將各行各業(yè)的專家從HPC的運(yùn)維和管理中解放出來(lái)。不止于此,曙光希望通過(guò)EasyOP構(gòu)建一個(gè)資源交易平臺(tái),讓閑時(shí)資源創(chuàng)造價(jià)值?!?/p>
“懂HPC,才能更懂HPC在線運(yùn)維?!笔锕饪偛弥砑娓咝阅苡?jì)算產(chǎn)品事業(yè)部總經(jīng)理曹振南感慨道,EasyOP可滿足用戶在立項(xiàng)支持、設(shè)備選型、產(chǎn)線交付、售中部署、應(yīng)用環(huán)境調(diào)優(yōu)、在線運(yùn)維指導(dǎo)、售后技術(shù)支持等方面的持續(xù)需求。
“曙光推出EasyOP在線運(yùn)維平臺(tái),引領(lǐng)了我國(guó)HPC行業(yè)向互聯(lián)網(wǎng)+轉(zhuǎn)型的方向,將促進(jìn)行業(yè)整體服務(wù)水平的提升?!敝袊?guó)軟件行業(yè)協(xié)會(huì)數(shù)學(xué)軟件分會(huì)常務(wù)副秘書長(zhǎng)姚繼鋒博士表示,“EasyOP可實(shí)現(xiàn)曙光與HPC用戶的互聯(lián),對(duì)于打造‘HPC生態(tài)圈’具有重要意義。”