2016年的夏天,最熱的不僅有天氣,還有超級計(jì)算機(jī)。
6月20日,在第47屆全球超算TOP500榜單中,中國超算“太湖之光”一騎絕塵,斬獲冠軍寶座;同時,中國軍團(tuán)以167套超算的成績首次超過了美國(165套),拿下超級計(jì)算機(jī)份額冠軍。
在這屆榜單中,無論是“點(diǎn)”還是“面”,中國超算都取得了冠軍,這是值得中國超算界驕傲的成績。更為深遠(yuǎn)的意義是,“太湖之光”的計(jì)算峰值已經(jīng)達(dá)到十億億次,為下一個計(jì)算高度——“E級計(jì)算”揭開了序幕。
“E級計(jì)算”將達(dá)到每秒鐘百億億次的浮點(diǎn)運(yùn)算,是“太湖之光”的十倍。從目前來看,實(shí)現(xiàn)這個目標(biāo)并不容易,還需跨越能耗、可靠性等多個壁壘。
但“E級計(jì)算”并不遙遠(yuǎn),在近日召開的曙光2016技術(shù)創(chuàng)新大會(IDIC2016)上,李國杰院士指出,中國希望能在2020年實(shí)現(xiàn)E級系統(tǒng),比美國的預(yù)期要早四年,而中科曙光則是實(shí)現(xiàn)這一目標(biāo)的排頭兵。
中國工程院院士、曙光公司董事長李國杰
對于這一目標(biāo),曙光公司總裁歷軍表示,曙光目前在E級計(jì)算方面的研究開發(fā)已經(jīng)取得了階段性的成果,在E級技術(shù)、E級應(yīng)用和E級服務(wù)方面都已經(jīng)做好了準(zhǔn)備。
技術(shù)破壁
歷軍指出,實(shí)現(xiàn)E級計(jì)算,還要翻過幾道墻,如訪存墻、可靠性墻、能耗墻、擴(kuò)展性墻和E級應(yīng)用創(chuàng)新。例如,E級計(jì)算系統(tǒng)可能會包含六萬個處理器,其穩(wěn)定性以及高速互聯(lián)的可靠性將帶來巨大挑戰(zhàn);按照當(dāng)前超算系統(tǒng)來推測,E級系統(tǒng)功耗可能將達(dá)到40~50兆瓦,對于任何一個客戶來說都難以承擔(dān)。
曙光公司總裁歷軍
所以,要實(shí)現(xiàn)E級計(jì)算,技術(shù)上就要有新的創(chuàng)新突破。
在IDIC2016上,曙光副總裁沙超群展示了曙光E級系統(tǒng)原型機(jī):采用層次化設(shè)計(jì),處理器、加速部件到節(jié)點(diǎn),多個節(jié)點(diǎn)形成一個超節(jié)點(diǎn),多個超節(jié)點(diǎn)組成一個硅元,由多個硅元形成超級計(jì)算機(jī)系統(tǒng),曙光將其稱之為“6D-Torus”結(jié)構(gòu),可以擴(kuò)展到10萬個以上的節(jié)點(diǎn)規(guī)模,滿足E級計(jì)算的擴(kuò)展性。
除了擴(kuò)展性,“6D-Torus”硅元結(jié)構(gòu)最大的優(yōu)點(diǎn)在于局部通信性能特別高?!盀榱藢?shí)現(xiàn)6D-Torus,我們設(shè)計(jì)了一個硅元路由器,在這個路由器可以達(dá)到500端口以上、每端口100G的吞吐能力。我們會使用這種硅元路由器完成整個路由的算法,來優(yōu)化路由算法,保證這個系統(tǒng)的擴(kuò)展性和穩(wěn)定性”,沙超群表示。
在能耗和散熱方面,曙光E級系統(tǒng)將采用一種非?!翱苹谩钡纳岱椒āT谌ツ甑腎CDC大會上,曙光展示了地球模擬裝置,該系統(tǒng)采用了冷板式的冷卻模式,把水通過散熱片連接到服務(wù)器的處理器上進(jìn)行冷卻,實(shí)測PUE 達(dá)到了1.17,而下一步,曙光的E級超算系統(tǒng)里面會采用進(jìn)一步的浸沒式液冷服務(wù)器。
“我們將采用相變(蒸發(fā))冷卻的模式對E級系統(tǒng)進(jìn)行制冷”,沙超群表示,曙光E級超算整個系統(tǒng)都會浸泡在液體中,通過相變帶走熱量,然后這些氣體會移到一個氣體準(zhǔn)直當(dāng)中,通過常溫水的冷卻變成液體,重新回到服務(wù)器里面?!罢舭l(fā)的潛熱是比熱的效率的100倍,也就是說這是一種最高效的冷卻模式,可以讓系統(tǒng)零風(fēng)扇、零噪音,可以實(shí)現(xiàn)整機(jī)的PUE小于1.1?!?/p>
另一方面,曙光E級超算采用了彈性的、可定義的計(jì)算部件,性能功耗比能夠達(dá)到每瓦10GFlops以上——在超算Green500榜單中,全球最綠色的超級計(jì)算機(jī)性能功耗比是6.6GFlops/瓦,也就是說曙光E級系統(tǒng)性能功耗比將會提高兩倍。
同時,得益于自適應(yīng)超融合的軟件系統(tǒng),曙光E級超算可以重定義計(jì)算節(jié)點(diǎn),從而大大拓展了應(yīng)用領(lǐng)域。“比如說今天有的應(yīng)用需要更多的加速器,有的應(yīng)用只需要處理器,有的應(yīng)用需要均衡的加速器和處理器,我可以通過軟件配置把它進(jìn)行變化”,沙超群表示,這樣就可以讓超算系統(tǒng)不光能夠服務(wù)于科學(xué)計(jì)算,同時可以承擔(dān)大數(shù)據(jù)、人工智能、深度學(xué)習(xí)以及云計(jì)算等方面的應(yīng)用。
應(yīng)用先行
對于中國超算來說,“應(yīng)用”是一個老生常談的話題。曾有專家指出,中國現(xiàn)在是一個超算大國,但還稱不上是超算強(qiáng)國,因?yàn)橹袊阌布揭呀?jīng)領(lǐng)先世界,但應(yīng)用水平相比歐美、日本等國家還有差距。