高性能計算機(HPC)向來被譽為“國之重器”,其制造與應用水平不僅代表國家的科技發(fā)展水平,更是國家在經(jīng)濟建設(shè)中塑造核心競爭力的關(guān)鍵武器。
近二十年來,在國家政策與資金的扶持下,產(chǎn)、學、研、用各方力量聯(lián)合奮戰(zhàn),中國高性能計算產(chǎn)業(yè)有了長足發(fā)展,天河二號超級計算機連續(xù)四次奪得全球超級計算機TOP 500排行榜冠軍;曙光、浪潮等本土品牌高性能計算廠商的集體崛起;越來越多的行業(yè)開始使用曾經(jīng)“高高在上”的高性能計算機,等等都是最好的證明。
11月上旬,全國高性能計算年會在廣州舉行。它雖然是一個學術(shù)型會議,但同時亦是一個觀察我國高性能計算產(chǎn)業(yè)發(fā)展現(xiàn)狀與未來走勢的絕佳窗口。那么,站在2014年時間點上,我國高性能計算產(chǎn)業(yè)人士在忙什么、愁什么、取得哪些新成就、又面臨哪些新的挑戰(zhàn)?
從P級到E級的困境與出路
本屆高性能計算 China 上,我國高性能計算產(chǎn)業(yè)面臨的現(xiàn)實問題和未來發(fā)展方向是重點話題之一。我國高性能計算產(chǎn)業(yè)的先驅(qū)人物、中國工程院院士李國杰發(fā)表了題為《高性能計算的困境和出路》的精彩演講,分別談到了高性能計算為什么會陷入困境、E級計算如何滿足國家戰(zhàn)略需求、高性能計算如何找到出路三個重要話題。
李國杰表示,我國高性能計算發(fā)展經(jīng)歷了從追求性能優(yōu)先的90年代、發(fā)展到后來的市場優(yōu)先階段,如今正在進入以效率為優(yōu)先的第三階段。
在追求性能有限的時代,高性能計算機以追求性能為主,應用面局限在科學與工程計算,只有極少數(shù)企業(yè)參與,代表技術(shù)是向量機和MPP系統(tǒng)。在追求市場優(yōu)先的時代,高性能計算機主要通過低成本、短時間的方式來提升性能,應用面擴大到互聯(lián)網(wǎng)、企業(yè)數(shù)據(jù)中心等,形成了比較完備的高性能計算機產(chǎn)業(yè),代表技術(shù)是Cluster(機群)技術(shù)。
在追求市場優(yōu)先的時代,高性能計算機速度和應用效率每十年均提高3個數(shù)量級,高性能計算機由此邁入P級(PFLOPS,每秒千萬億次浮點計算能力)時代,然而,到了效率優(yōu)先的后P級時代,高性能計算機遭遇了“效率墻”——性能增長緩慢,功能接近了極限。更為,要想造E級(ExaFLOPS,每秒百萬萬億次浮點計算能力)高性能計算機,現(xiàn)有的P級技術(shù)方案將難以為繼。例如,如果使用造天河二號高性能計算機的技術(shù)來造一臺E級系統(tǒng)的話,功耗將高達320MW,相當于一座60萬人口城市一年的用電量,而且系統(tǒng)平均無故障時間將小于1小時,故障的檢測、診斷和恢復難度直線上升。
“高性能計算面臨三大困境。一是實際應用效率急劇降低,二是實際應用價值急劇下降,因為真正到P級規(guī)模并用上GPU/MIC眾核的應用很少,已經(jīng)跑出規(guī)模的應用對重大科學發(fā)現(xiàn)、滿足國家重大戰(zhàn)略需求的價值不顯著;三是對高性能計算市場拉動作用急劇下降,尤其對高性能計算市場容量最大的中小規(guī)模系統(tǒng)沒有帶動作用?!崩顕芸偨Y(jié)說。
關(guān)于E級計算,目前美國、日本都將E級計算提上了具體日程,中國相關(guān)部門據(jù)說還在探討中——造一臺E級計算機需要花費20億元,必須有國家政策與經(jīng)費的支持。同時,李國杰指出,確實應該仔細思考,用20億元做一臺E級機器,什么重大應用配得上這個投入?對國家戰(zhàn)略需求的貢獻是什么?20億元投入之后,對產(chǎn)業(yè)技術(shù)提升的拉動作用是什么?
目前來看,一些變革型應用,如航空技術(shù)模擬、國家點火工程、平方公里陣列(SKA)項目、氣候研究等確實需要用上E級計算機。
無論是否立即開展E級計算項目,李國杰院士認為在追求效率優(yōu)先的時代,設(shè)計高性能計算機要堅持四項基本原則:算得快、應用廣、易產(chǎn)業(yè)化、核心技術(shù)創(chuàng)新。
此外,李國杰還介紹了中科院計算所和曙光目前發(fā)展高性能計算的思路。基于協(xié)同設(shè)計的體系結(jié)構(gòu)設(shè)計理念;即根據(jù)應用的需求動態(tài)調(diào)整硬件,以高效率為導向,高效適配不同應用,尤其要滿足大數(shù)據(jù)[注]、深度學習、腦可續(xù)等新型應用的新需求。同時,計算所提出了第三代機群Elastic Cluster。Elastic Cluster在算法層、互聯(lián)網(wǎng)絡(luò)層和計算部件層都有關(guān)鍵創(chuàng)新。
應用領(lǐng)域擴大 75%為新興應用
每年HPC China上重頭戲之一就是頒布中國HPC TOP100排行榜。HPC TOP100是指依據(jù)LinPACk測試性能進行排序的中國最快的100臺計算機系統(tǒng)的榜單列表,是衡量中國高性能計算機系統(tǒng)及應用發(fā)展的重要參考依據(jù)。