2013年SC大會(huì)公布了最新一期Top500全球高性能計(jì)算機(jī)500強(qiáng)榜單,來(lái)自中國(guó)的“天河二號(hào)”(Milky Way 2)以54.9PFlops(每秒54.9千萬(wàn)億次浮點(diǎn)運(yùn)算)再次蟬聯(lián)冠軍。而讓這套系統(tǒng)得以高居榜首的核心,則是來(lái)自英特爾的48000顆至強(qiáng)融核協(xié)處理器以及32000顆至強(qiáng)CPU。
“微異構(gòu)”奪冠 預(yù)示未來(lái)趨勢(shì)
作為科學(xué)研究的重要手段,高性能計(jì)算一直以來(lái)被廣泛應(yīng)用在分子物理、分子生物學(xué)、高能物理、工業(yè)設(shè)計(jì)、大氣研究、石油勘探等領(lǐng)域。最簡(jiǎn)單的例子是汽車的外形和造價(jià):想要設(shè)計(jì)出阻力最小、最省油,但是抓地能力要好、更加安全的汽車,如果按照傳統(tǒng)設(shè)計(jì)方法反復(fù)做各種試驗(yàn),那么最終汽車的成本將非常高昂。而如今絕大多數(shù)的汽車廠商都會(huì)采用實(shí)際試驗(yàn)和高性能計(jì)算模擬相結(jié)合的方式來(lái)設(shè)計(jì)汽車,于是在很短的時(shí)間周期內(nèi),新款車型可以被研制出來(lái),其造價(jià)進(jìn)一步降低,風(fēng)阻更小。
因此,高性能計(jì)算的精確度和效率成為了不斷推動(dòng)工業(yè)、科學(xué)研究進(jìn)步的重要因素。舉例來(lái)說(shuō),本次奪冠的“天河二號(hào)”的計(jì)算能力是2012年11月Top500榜單中冠軍計(jì)算能力的兩倍。這意味著相同的計(jì)算工作可以縮短一半時(shí)間完成,或是在同樣時(shí)間內(nèi)計(jì)算更多的任務(wù)。
但為何一年之內(nèi)會(huì)有如此大的變化呢?答案就是“天河二號(hào)”采用了英特爾至強(qiáng)處理器 + 至強(qiáng)融核協(xié)處理器所構(gòu)成的“微異構(gòu)”計(jì)算系統(tǒng)。該系統(tǒng)即具有多種類型、可提供計(jì)算力的硬件架構(gòu),但卻由通用編程模型予以支持,以簡(jiǎn)化開(kāi)發(fā)和優(yōu)化過(guò)程。這一優(yōu)勢(shì)是傳統(tǒng)異構(gòu)架構(gòu)(使用CPU與GPU加速器的組合)所無(wú)法實(shí)現(xiàn)的。這也使得“天河二號(hào)”成為最具能效的系統(tǒng)之一(系統(tǒng)總功率為17.8兆瓦)。
英特爾至強(qiáng)融核協(xié)處理器
如今,越來(lái)越多的高性能計(jì)算系統(tǒng)開(kāi)始采用異構(gòu)模式來(lái)解決并行計(jì)算任務(wù)。但主要矛盾在于編寫(xiě)適用于這種異構(gòu)計(jì)算環(huán)境的程序,一方面要盡可能好的利用GPU的并行管線,另一方面又要協(xié)同調(diào)度好CPU的計(jì)算資源。這也是很多超算中心在異構(gòu)模式面前猶豫的原因——太過(guò)復(fù)雜。而如今,“天河二號(hào)”用“微異構(gòu)”做了榜樣,一方面用至強(qiáng)融核協(xié)處理器實(shí)現(xiàn)了大規(guī)模并行計(jì)算,另一方面由于至強(qiáng)融核是x86架構(gòu),極大的簡(jiǎn)化了開(kāi)發(fā)和系統(tǒng)優(yōu)化過(guò)程。
事實(shí)也是如此,自從6個(gè)多月前推出英特爾至強(qiáng)融核協(xié)處理器以來(lái),英特爾至強(qiáng)處理器和英特爾至強(qiáng)融核協(xié)處理器已發(fā)展成為一個(gè)強(qiáng)大的組合,在全球最快的多個(gè)超級(jí)計(jì)算機(jī)中得到了廣泛采用,至今已經(jīng)在所有超級(jí)計(jì)算機(jī) 500 強(qiáng)提供的聚合性能中占據(jù) 18% 的份額。
HPC的系統(tǒng)級(jí)挑戰(zhàn)
經(jīng)典的計(jì)算機(jī)科學(xué)課程告訴我們,想要發(fā)揮一個(gè)計(jì)算系統(tǒng)的最大性能,必須從各方面消除系統(tǒng)瓶頸,其中最主要的是計(jì)算瓶頸、I/O瓶頸以及軟件瓶頸。而對(duì)于高性能計(jì)算(HPC)來(lái)說(shuō),目前85%的超算系統(tǒng)是由計(jì)算集群構(gòu)成,因而更需要總體的去衡量整個(gè)系統(tǒng)的瓶頸和效率。
簡(jiǎn)單來(lái)說(shuō),計(jì)算性能是核心,傳統(tǒng)堆砌CPU的方式因?yàn)闄C(jī)架密度和高昂的功耗而難以大幅度的提升——即便是“天河二號(hào)”也只有3.2萬(wàn)顆至強(qiáng)處理器,而針對(duì)并行計(jì)算的至強(qiáng)融核協(xié)處理器數(shù)量達(dá)到了4.8萬(wàn)顆。這說(shuō)明了未來(lái)高性能計(jì)算將越來(lái)越多的采用這種“微異構(gòu)架構(gòu)”,由同為x86架構(gòu)的至強(qiáng)融核協(xié)處理器提供絕大部分計(jì)算力。從而解決日益攀升的計(jì)算資源需求,使其不再是瓶頸。
I/O瓶頸分為兩部分,一是節(jié)點(diǎn)內(nèi)的I/O,另外是節(jié)點(diǎn)間,跨機(jī)架的I/O。
英特爾為節(jié)點(diǎn)內(nèi)I/O做了一系列努力:將內(nèi)存控制器、PCI-E控制器等放入CPU,用頂尖的半導(dǎo)體科技制造SSD固態(tài)硬盤(pán)來(lái)加速節(jié)點(diǎn)內(nèi)的存儲(chǔ)讀寫(xiě)速度和隨機(jī)數(shù)據(jù)IOPS(高性能計(jì)算敏感)。而對(duì)于節(jié)點(diǎn)間的I/O,不論是英特爾的萬(wàn)兆以太網(wǎng),還是正在發(fā)展的硅光子通信技術(shù)(可達(dá)25Gb/s以上速度),都在全力加速計(jì)算節(jié)點(diǎn)間的I/O能力。
但硬件提升對(duì)軟件開(kāi)發(fā)和系統(tǒng)優(yōu)化帶來(lái)的影響不可不重視。
之所以強(qiáng)調(diào)“微異構(gòu)”,就是因?yàn)檫@一架構(gòu)的微弱區(qū)別在于至強(qiáng)處理器是傳統(tǒng)多核心CPU,而至強(qiáng)融核協(xié)處理器則擁有眾多的微內(nèi)核——但是它們擁有相同的x86架構(gòu),可以在相同的編程環(huán)境下,甚至幾乎不用改動(dòng)原有代碼就可以在系統(tǒng)上順利運(yùn)行。而英特爾即將推出的代號(hào)為“Knights Landing”的新一代融核主處理器則可以無(wú)縫運(yùn)行原生應(yīng)用。