中國(guó)超算在軟硬件方面實(shí)力的增強(qiáng)是毋庸置疑的。這不僅體現(xiàn)在天河2號(hào)長(zhǎng)期“霸占”全球超算性能的寶座,更體現(xiàn)在一大批中國(guó)先進(jìn)超算的集體亮相和中國(guó)超算廠商實(shí)力的不斷增強(qiáng)。
日前,在中國(guó)高性能計(jì)算學(xué)術(shù)年會(huì)上,《2015年中國(guó)高性能計(jì)算機(jī)TOP100排行榜》正式公布。而這份榜單除了超算性能排名之外,其透露出的信息和趨勢(shì)還有很多。
誰(shuí)是中國(guó)超算的第一品牌?
從這份榜單所統(tǒng)計(jì)的100臺(tái)中國(guó)頂尖超算系統(tǒng)來(lái)看,在過(guò)去的一年中,新近上榜的超算有74臺(tái);而在這74臺(tái)新晉超算中,中科曙光占據(jù)30臺(tái)。而回看整個(gè)榜單,在100臺(tái)超算系統(tǒng)中,曙光占比也達(dá)到了34臺(tái)。
從這份超算榜單來(lái)看,雖然十二五計(jì)劃已經(jīng)進(jìn)行到最后一年,但2015年TOP100榜單74%的更新率則表明,中國(guó)超算仍在以超高的速度發(fā)展。而在這樣的發(fā)展速度中,中科曙光無(wú)論是從超算系統(tǒng)建設(shè)總量還是新超算建設(shè)數(shù)量上來(lái)看都是無(wú)可爭(zhēng)議的第一名。
其實(shí)這個(gè)第一名的寶座,曙光已經(jīng)連續(xù)坐了7年??梢哉f(shuō),當(dāng)?shù)谝幻呀?jīng)不再是曙光在超算領(lǐng)域的第一要?jiǎng)?wù)。
老大就要有老大的樣子。既然是老大,那么曙光追求的顯然不僅是實(shí)現(xiàn)更多的銷(xiāo)售,更是如何引領(lǐng)中國(guó)超算行業(yè)的發(fā)展,讓超算更好的服務(wù)科研、服務(wù)企業(yè)。而要做到這一點(diǎn),需要的不僅是光環(huán),更需要實(shí)力。
當(dāng)老大應(yīng)該干什么?
超算是國(guó)之重器,是硬件與軟件的完美結(jié)合。要引領(lǐng)行業(yè)發(fā)展也必須從硬件和軟件兩方面入手。而在這兩方面,曙光在過(guò)去的一年中都沒(méi)閑著。
更快、更靈活的硬件架構(gòu)
從最初的曙光一號(hào),到后來(lái)的曙光6000;在過(guò)去的很多年中,曙光都是中國(guó)超算的代表。在硬件架構(gòu)的不斷演進(jìn)中,曙光始終保持了領(lǐng)先;而最新的硅立方則是這種領(lǐng)先的最新體現(xiàn)。
在所有今年新晉榜單的超算中,排名最靠前的是中科院大氣物理所的超算“硅立方”。這臺(tái)擁有1038個(gè)計(jì)算節(jié)點(diǎn)、2076個(gè)物理處理器的超級(jí)系統(tǒng)憑借其738TFLOPS的測(cè)試性能和996TFLOPS的峰值性能多得了本次TOP100超算排行中得第七名,也是今年中國(guó)新建的所有超算系統(tǒng)中最快的一臺(tái)。
硅立方采用了全新的模塊化設(shè)計(jì)思路,將超算的各個(gè)功能變成能夠相互獨(dú)立且具備統(tǒng)一接口的模塊——超節(jié)點(diǎn),極大的增加了超算系統(tǒng)構(gòu)建時(shí)的靈活性。讓超算系統(tǒng)的建造、升級(jí)和維護(hù)變得更加簡(jiǎn)單。另一方面,硅立方也是國(guó)內(nèi)為數(shù)不多的使用液冷系統(tǒng)超算。液冷技術(shù)看似簡(jiǎn)單,但數(shù)千個(gè)節(jié)點(diǎn)的聯(lián)合制冷不僅對(duì)廠商的設(shè)計(jì)能力有著超高的要求,更需要廠商具備高超的熱交換模塊制造能力。
既然采用了模塊化設(shè)計(jì),那么模塊和模塊之間的鏈接就變得更加重要了。為了消除超算的各個(gè)模塊之間的通訊瓶頸,曙光專(zhuān)門(mén)為硅立方開(kāi)發(fā)了基于3D-Torus 全互聯(lián)架構(gòu)的高端容錯(cuò)網(wǎng)絡(luò)。這種新的網(wǎng)絡(luò)不僅更有利于大規(guī)模并行計(jì)算,更增強(qiáng)了超算系統(tǒng)在節(jié)點(diǎn)失效時(shí)的容錯(cuò)能力。
不僅在國(guó)內(nèi),硅立方的設(shè)計(jì)思路在全球范圍來(lái)看都是先進(jìn)和代表未來(lái)的。而這正是曙光在超算領(lǐng)域里的硬實(shí)力。
建造更好用的超算
在超算這個(gè)相對(duì)較窄的市場(chǎng)細(xì)分中,軟件實(shí)力的長(zhǎng)期欠發(fā)展是中國(guó)超算界對(duì)國(guó)內(nèi)超算現(xiàn)狀共識(shí)。而作為中國(guó)第一的超算大廠,曙光當(dāng)然不會(huì)無(wú)動(dòng)于衷。基于現(xiàn)狀,曙光的切入點(diǎn)非常實(shí)際。
從市場(chǎng)的實(shí)際情況來(lái)看,目前使用超算的單位多事學(xué)校和科研院所。這些單位通常面對(duì)的時(shí)產(chǎn)學(xué)研課題的計(jì)算和研究工作。這樣的性質(zhì)和背景決定了這些單位注定是強(qiáng)于業(yè)務(wù)而弱于IT的。而超算畢竟是超大規(guī)模計(jì)算系統(tǒng),不僅擁有海量的計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源,在實(shí)際的應(yīng)用中更是要面對(duì)同時(shí)運(yùn)行多種并行程序的情況。因此,如何對(duì)如此大規(guī)模的系統(tǒng)進(jìn)行有效的監(jiān)管、監(jiān)控和優(yōu)化就成為目前國(guó)內(nèi)學(xué)校和科研單位所面對(duì)的最實(shí)際的困難。
而曙光的EasyOP在線運(yùn)維平臺(tái)正是為了解決這一難題而誕生的。EasyOP在線運(yùn)維平臺(tái)可以7*24小時(shí)監(jiān)控超算的系統(tǒng)各個(gè)硬件部分的運(yùn)行狀態(tài)并統(tǒng)計(jì)包括高興呢過(guò)計(jì)算在內(nèi)的各個(gè)層面的多種信息,為使用單位用好超算,管好超算以及使用之中的性能優(yōu)化提供可靠和有效的工具。同時(shí),這種在線的運(yùn)維管理工具也允許使用單位的超算管理員實(shí)施遠(yuǎn)程監(jiān)控并獲得來(lái)自曙光的原廠在線指導(dǎo),讓超算也能夠享受到很多商用系統(tǒng)才有的高規(guī)格服務(wù)。