在日前召開的2016全國高性能計(jì)算學(xué)術(shù)年會(huì)上,備受矚目的中國超算性能TOP100排行榜發(fā)布。在本次的榜單中,國產(chǎn)系統(tǒng)獨(dú)樹一幟,以98%的占比成為中國超算的絕對(duì)主力。而如果以計(jì)算架構(gòu)來分類,以采用GPU作為寫處理器為代表的新一代異構(gòu)計(jì)算系統(tǒng)也占據(jù)了相當(dāng)大的份額。作為新興的超算大國,中國系統(tǒng)不約而同的采用GPU作為加速單元顯然也代表了目前整個(gè)超算領(lǐng)域發(fā)展的一種方向。
從超算的應(yīng)用分類來看,高精度數(shù)值計(jì)算已經(jīng)越來越重要,包括大數(shù)據(jù)、人工智能、天氣預(yù)報(bào)等多個(gè)領(lǐng)域的發(fā)展已經(jīng)明顯的驗(yàn)證了這一點(diǎn)。而在對(duì)高精度數(shù)值計(jì)算性能的不懈追求中,CPU由于需要兼顧絕大多數(shù)的指令處理和整數(shù)運(yùn)算,所以無論是從架構(gòu)還是能效表現(xiàn)亦或是峰值性能等方面來看,CPU都已經(jīng)不能滿足需求。而核心數(shù)量眾多、內(nèi)存帶寬更高、并且為高精度數(shù)值計(jì)算進(jìn)行專門優(yōu)化的GPU則是目前這一領(lǐng)域中的絕對(duì)主力。
作為GPU市場中的代表,英偉達(dá)在近幾年更是在高性能計(jì)算領(lǐng)域不斷發(fā)力,以每年一代產(chǎn)品的速度不斷刷新著半導(dǎo)體芯片在高精度數(shù)值計(jì)算領(lǐng)域中的記錄。另一方面,GPU本身擴(kuò)展卡的產(chǎn)品形式也非常適于服務(wù)器系統(tǒng)進(jìn)行升級(jí)和擴(kuò)展,以獲得更高的性能。
而在未來GPU高性能計(jì)算產(chǎn)品的發(fā)展路徑上,NVIDIA也走出了一條軟件與硬件相結(jié)合、算法與SDK深度整合的新路。在這條道路上NVIDIA一方面借助不斷優(yōu)化的架構(gòu)和工藝制成提高硬件本身的處理能力,另一方面則根據(jù)硬件特性不斷研發(fā)新的算法和應(yīng)用,讓GPU能夠在更多領(lǐng)域表現(xiàn)出更好的性能,同時(shí)也方便用戶和企業(yè)將各種功能進(jìn)行二次開發(fā)和整合。當(dāng)然,NVIDIA多年來也一直秉承著對(duì)開發(fā)者的友好策略。其開發(fā)的CUDA語言以類C的方式將GPU的性能開放更多開發(fā)者,降低了GPU變成的門檻,讓更多有想法、有創(chuàng)意、有能力的開發(fā)者能夠借助GPU實(shí)現(xiàn)更快、更高、更強(qiáng)的目標(biāo)。
深度學(xué)習(xí)將GPU應(yīng)用推向新高峰
GPU技術(shù)的進(jìn)步不僅讓很多傳統(tǒng)的科學(xué)計(jì)算任務(wù)能夠更快、更低成本的完成,更為曾經(jīng)多次受挫的人工智能領(lǐng)域打開了全新可能。
人工智能一直是人類的一大夢想,但過去受限于硬件的性能和架構(gòu),這一領(lǐng)域的發(fā)展更偏向于理論。而隨著核心眾多、開發(fā)更簡單、性能更高的GPU的出現(xiàn),人工智能重新回到了發(fā)展的前沿,并且在近兩年誕生了眾多包括自動(dòng)駕駛汽車、語音語義識(shí)別、圖像識(shí)別等在內(nèi)的非常實(shí)際的應(yīng)用案例。
英偉達(dá)解決方案與工程架構(gòu)副總裁Marc Hamilton
對(duì)此,英偉達(dá)解決方案與工程架構(gòu)副總裁Marc Hamilton表示:NVIDIA在這些領(lǐng)域的研究和投資非常超前。早在十年前,NVIDIA就已經(jīng)CUDA和GPU的通用計(jì)算方面投入資源;而早在五年前,NVIDIA就已經(jīng)看到了GPU帶深度學(xué)習(xí)、人工智能、神經(jīng)網(wǎng)絡(luò)等方面的發(fā)展?jié)摿Σ⒎e極進(jìn)行相關(guān)優(yōu)化。其實(shí)機(jī)器學(xué)習(xí)最早的算法就是一位大學(xué)生在NVIDIA的GPU上實(shí)現(xiàn)的。而NVIDIA未來也將繼續(xù)在這些領(lǐng)域加大投資,推動(dòng)這一領(lǐng)域的繼續(xù)前進(jìn)。
降低門檻,讓小組織擁有大能力
一個(gè)行業(yè)或一個(gè)領(lǐng)域的高速發(fā)展絕對(duì)不是單獨(dú)一個(gè)人或一個(gè)組織就可以推動(dòng)的,他一定是整個(gè)行業(yè)中的所有參與者共同努力的結(jié)果。這個(gè)道理NVIDIA早就清楚,CUDA語言的推出就是最好的例證。
而現(xiàn)在,人工智能、深度學(xué)習(xí)領(lǐng)域正處在高速發(fā)展過程中,不僅是大型企業(yè)和科研單位,就連小型初創(chuàng)公司甚至是個(gè)人或小組都開始積極投入到這一領(lǐng)域的研究當(dāng)中。但隨著這一領(lǐng)域的進(jìn)化,整個(gè)行業(yè)的研究方向開始變得更加深與,聚焦的問題也變得越來越復(fù)雜。
在過去,訓(xùn)練一個(gè)解決復(fù)雜問題的人工智能程序需要非常長的時(shí)間和海量的硬件資源。但為了降低這方面的成本,降低人工智能、深度學(xué)習(xí)的硬件門檻,NVIDIA終于推出了經(jīng)過深度優(yōu)化的GPU計(jì)算一體機(jī)系統(tǒng)GDX-1。從產(chǎn)品形態(tài)上看,GDX 1是一臺(tái)標(biāo)準(zhǔn)的機(jī)架式服務(wù)器,而從其核心來看,他則是一個(gè)擁有超高計(jì)算性能且經(jīng)過深度整合和優(yōu)化的迷你超算。而類似系統(tǒng)的不斷推出也讓更多的小型組織能夠以更低的成本切入人工智能、深度學(xué)習(xí)領(lǐng)域,從而進(jìn)一步提高行業(yè)的發(fā)展速度。