天河二號是目前最快的超級計算機。它由16000個節(jié)點組成,每個節(jié)點有2顆基于Ive Bridge-E Xeon E5 2692處理器和3個Xeon Phi,累計共有32000顆Ive Bridge處理器和48000個Xeon Phi,總計有312萬個計算核心。
每個Xeon Phi使用其中的57個核心,而不是使用全部的61個,因為使用61個在運算周期協(xié)調(diào)方面會有問題,而使用57個核心能夠加速4個執(zhí)行線程,并且在每個線程單周期可以達成4flops的運算量,運行在1.1GHz的Xeon Phi可以生產(chǎn)1003 Tflops的雙精度運算能力。如果考慮CPU,2 Ivy Bridge * 0.2112 Tflop/s + 3 Xeon Phi * 1.003 Tflop/s=3.431 Tflops,2個Ive Bridge+3個Xeon Phi單個節(jié)點可以有3.431 Tflops運算能力,16000個節(jié)點總計可達54.9PFlops性能。每個運算節(jié)點有64GB主存、而每個Xeon Phi板載8GB內(nèi)存,因此每個節(jié)點共有88GB內(nèi)存,總計16000個節(jié)點一共有1.404 PB內(nèi)存,而外部存儲器容量方面更是高達12.4PB.
在每個主板上有2個計算節(jié)點,而每個框架則有16個主板,4個框架組成一個機柜,整個系統(tǒng)由125個機柜組成。
每個計算節(jié)點主板分為兩塊,一塊CPM一塊APU,CPM上有4核Ive Bridge、內(nèi)存和一個Xeon Phi,而APU基板上則承載著5個Xeon Phi.
CPM和APU之間有5個水平插入的鏈接口,由Ive Bridge內(nèi)置的PCI-E 2.0進行連接,雖然Ive Bridge內(nèi)置為PCI Express 3.0接口,但Xeon Phi僅支持2.0,單個通路為10Gbps帶寬。
計算節(jié)點的前端處理器為4096個FT-1500處理器, FT-1500處理器是由國防科技大學為天河1研發(fā),其可以說是天河1項目的最大收獲,其為16核心的Sparc V9架構(gòu)處理器,在40nm工藝情況下運行頻率為1.8Ghz,峰值性能為144 Fflops/s,功耗為65W,但相比英特爾22nm 12核 2.2GHz 211Gflops/s性能的Ive Bridge還是有明顯差距。
天河2互聯(lián)方面采用自主研發(fā)的 Express-2 內(nèi)部互聯(lián)網(wǎng)絡(luò),其為有13個交換機,而每個交換機有576個端口。連接介質(zhì)為光電混合。具體控制器是名為NRC的ASIC專用目的集成電路,其采用90nm工藝,封裝尺寸為17.16x17.16 mm,共有2577引腳。單個NRC的吞吐能力為2.56Tbps.而在終端方面網(wǎng)絡(luò)接口也采用類似結(jié)構(gòu)的NIC,但規(guī)模稍小,為10.76x10.76 mm, 675 pin,其采用PCIE 2.0方式連接,傳輸速率為6.36GB/s.并且在在12000節(jié)點的情況下延遲也很低,僅為85us.
而在計算能力方面,使用14336個節(jié)點 總計50GB內(nèi)存進行LINPACK測試,理論性能為49.19Pflops,而實際測試性能為30.65Pflops,效率為62.3%.這個效率并不算高,還有很大優(yōu)化提升潛力。當然也可能是被Xeon phi僅支持PCI Express 2.0帶寬不足限制。
上面測試使用了16000個節(jié)點中的14336個,運用了90%的規(guī)模,基本可以代表天河2的整體性能表現(xiàn)。天河2的性能部件(處理器、內(nèi)存、互聯(lián))整體功耗為17.6MW,而整體的運算能力為30.65PFlops,這樣計算每瓦的性能為1.935Gflops,這個性能/功耗比可以拍在超算TOP500的前五,其整體性能/功耗比十分出色。
系統(tǒng)的整體功耗為17.6 MW,并且這個功耗還不包括水冷這樣的散熱系統(tǒng),如果考慮上整體功耗將高達24MW,廣州國家超算中心將采用城市供水系統(tǒng)構(gòu)建高散熱效能的冷卻系統(tǒng),有能力可以提供80KW系統(tǒng)的散熱能力。
國家超級計算天津中心——天河一號A