現(xiàn)如今計算已經(jīng)在我們的生活中扮演著越來越重要的角色,大家可以看到從我們的筆記本到手機、再到Pad,可謂計算無處不在。而HPC系統(tǒng),是整個計算產(chǎn)業(yè)里面最快,技術(shù)行業(yè)最高的行業(yè)先鋒,可謂是重中之重。而此前,因為HPC自身的原因,其設(shè)計、建設(shè)、使用和維護一直是一個要求比較高的行業(yè),專業(yè)化程度較高。不少用戶在HPC集群上建設(shè)和運維壓力都較大,極大的阻礙了企業(yè)新價值的創(chuàng)造。
4月21日,在經(jīng)歷了6個月的試運營之后,中科曙光針對高性能計算集群推出的SaaS級專業(yè)化在線平臺EasyOP(Easy Operation的簡稱)正式上線。自此, HPC行業(yè)中將迎來一枚重磅角色,不僅可以幫助HPC用戶降低運維成本和人力投入,而且HPC集群的安全性和使用效率也得以提升。
正所謂懂HPC,才能更懂HPC在線運維。試運營期間,EasyOP累計接入來自20組HPC集群的超過7800個節(jié)點,應(yīng)用涵蓋CAE、氣象、海洋、物理、生物、材料及互聯(lián)網(wǎng)6大領(lǐng)域,對所有接入集群資產(chǎn)全面監(jiān)控的指標超過180項。
HPC運維人員不僅可以隨時了解HPC集群的運營情況和故障,還可通過網(wǎng)頁或微信等在線咨詢服務(wù)與線上專家進行一對一的交流。EasyOP還會將常見、有代表性的故障解決方案上傳至知識庫,以便于HPC運維人員積累。
從周期上看,EasyOP接入時間跨度分布合理,系統(tǒng)滿負載和低負載的情況均包含在內(nèi)。在監(jiān)控的7800多個節(jié)點中,CPU的最高和平均利用率為83%和70.1%,內(nèi)存的最高和平均利用率為40%和25.5%,存儲的最高和平均利用率為23%和20.3%。另外,在EasyOP接入的資源作業(yè)中,中短時長作業(yè)占近70%,作業(yè)排隊率約為1/5。這種多線程任務(wù)下適于對HPC系統(tǒng)各子功能的全方位監(jiān)控。
統(tǒng)計顯示,試運營半年期間,全部集群共自動觸發(fā)近2900條通知信息,其中2281條是因計算節(jié)點主要部件溫度升高觸發(fā)的輕微類通知。嚴重類通知僅有3條,其中兩條起因自共享存儲掛載故障,一條系嚴重級別溫度過高導致節(jié)點自動關(guān)機,從側(cè)面反映了曙光集群系統(tǒng)的高可靠性。
“EasyOP是曙光結(jié)合‘互聯(lián)網(wǎng)+’和HPC的產(chǎn)物,不僅幫助用戶維護HPC系統(tǒng),還有望利用用戶的系統(tǒng)為其創(chuàng)造更多的價值。”曙光副總裁沙超群表示,“EasyOP通過提供運維、調(diào)優(yōu)等服務(wù),將各行各業(yè)的專家從HPC的運維和管理中解放出來。不止于此,曙光希望通過EasyOP構(gòu)建一個資源交易平臺,讓閑時資源創(chuàng)造價值?!?/p>
寫在最后:
中科曙光公司是國內(nèi)行業(yè)中排頭兵企業(yè),中國TOP100的七連冠??梢韵胂螅@次EasyOP在線運維平臺的推出,對于幫助HPC用戶在立項支持、設(shè)備選型、產(chǎn)線交付、售中部署、應(yīng)用環(huán)境調(diào)優(yōu)、在線運維指導、售后技術(shù)支持等方面的持續(xù)需求有著極大的意義。
目前,在基于HPC的IT中心建設(shè)中,不少公司仍在就某個或幾個離散的環(huán)節(jié)提供服務(wù),難以做到全生命周期的運維服務(wù)。而第三方HPC服務(wù)商由于并不研發(fā)和生產(chǎn)HPC系統(tǒng),對于HPC運行中產(chǎn)生問題的分析和解決效率與HPC專業(yè)出身的曙光相比還有不小的差距,不足以保障用戶HPC高效運轉(zhuǎn)。
正如中國軟件行業(yè)協(xié)會數(shù)學軟件分會常務(wù)副秘書長姚繼鋒博士所說,“EasyOP可實現(xiàn)曙光與HPC用戶的互聯(lián),對于打造‘HPC生態(tài)圈’具有重要意義?!?/p>