按:作者系SenseTime(商湯科技)深度學(xué)習(xí)科學(xué)家周斌博士,中國首位HPC(High-Performance Computing,高性能計算)和GPU跨領(lǐng)域研發(fā)高級工程師,中科大客座研究員。2013年,周斌被NVIDIA授予了全球第12個CUDA Fellow 的稱號,成為了中國唯一獲此稱號的學(xué)者,擁有此稱號的還有胡恩偉、青木孝之、Ross Walker、Jone Stone 等世界知名專家學(xué)者。
SenseTime 最近推出了超算平臺SenseBox,據(jù)稱,其存儲和計算能力可以讓深度學(xué)習(xí)項目獲得更快的訓(xùn)練時間和更好的訓(xùn)練數(shù)據(jù),從而培育出新一代的更強(qiáng)“大腦”。
如果有一天醒來,發(fā)現(xiàn)自己成了上帝,(無所不能的感覺真好!)你會怎么樣?這樣的場景雖然只存在于科幻中,但是隨著深度學(xué)習(xí)所引領(lǐng)的人工智能技術(shù)的進(jìn)步,人類創(chuàng)造出強(qiáng)人工智能已經(jīng)成為了一個嚴(yán)肅的科研問題。人類,乃至宇宙,可能是某個“上帝”所制造的程序代碼,就像羅伯特·J·索耶在《計算中的上帝(Calculating God)》所描述的那樣。在我們創(chuàng)造的人工智能體眼中,我們就是上帝。
上帝的計算機(jī)長什么樣?
我們作為人工智能體的上帝,還是需要一臺計算機(jī)(請原諒我狹隘的想象力,作為深度學(xué)習(xí)+的程序員,他的身邊永遠(yuǎn)都有幾臺計算機(jī))來運(yùn)行上帝的代碼——虛擬的宇宙和智能,這樣的計算機(jī)長什么樣?
這是個很有意思的話題:上帝的計算機(jī)需要無窮快的速度,無窮大的存儲,無窮智能的接口……幻想到此打住,歸根結(jié)底,我們雖然是上帝,但只是我們創(chuàng)造的智能體的上帝?;貧w到現(xiàn)實,為了創(chuàng)造容納智能體的計算機(jī),我們需要利用手邊的材料來搭建能夠用于進(jìn)行深度學(xué)習(xí)的超級計算機(jī)。
曾幾何時,在我剛開始深入研究這個領(lǐng)域的時候,超級計算機(jī)還是躲在深閨大院、處于廟堂之上,研究物理、化學(xué)、生物、數(shù)學(xué)、密碼、氣象等等高深莫測的科學(xué)(我都有所涉獵,很多問題歸結(jié)為數(shù)學(xué)和計算)?,F(xiàn)在,信號處理、圖形圖像、視頻、天氣預(yù)報、生物信息學(xué)、網(wǎng)絡(luò)搜索等等應(yīng)用領(lǐng)域都能發(fā)現(xiàn)超算平臺的身影:
在氣象領(lǐng)域,超算平臺可以顯著提升天氣預(yù)報和沙塵暴模擬的精確程度,這也是我在美國喬治梅森大學(xué)所做的研究。我國新一代全球與區(qū)域同化預(yù)報系統(tǒng)(Global—Regional Assimilation and Prediction Systems,簡稱“GRAPES”)也是基于超算平臺的氣象項目,中國國家氣象局的天氣預(yù)報曾采用“GRAPES”系統(tǒng);
在醫(yī)療領(lǐng)域,實現(xiàn)醫(yī)學(xué)圖像的有效識別是目前計算機(jī)科學(xué)和醫(yī)學(xué)交叉領(lǐng)域研究的熱點(diǎn),在腫瘤圖像識別的相關(guān)研究領(lǐng)域,超算平臺的應(yīng)用能使GPU的識別速度和精度得到大幅提升,從而整體提升醫(yī)療服務(wù)質(zhì)量;
在軍事領(lǐng)域,超算平臺堪稱現(xiàn)代化國防建設(shè)的重要科技支柱,中國目前最先進(jìn)的中程空對空導(dǎo)彈“霹靂12”就應(yīng)用了相關(guān)技術(shù)。
以上種種進(jìn)步都離不開平臺超算本身的發(fā)展、迭代,中國的超級計算機(jī)一直處于世界領(lǐng)先地位:中國“天河一號”超級計算機(jī)GPU系統(tǒng)研發(fā)時,“天河一號”的運(yùn)算水平就曾排名世界第一;現(xiàn)在“天河二號”超級計算機(jī)系統(tǒng)更是連續(xù)五次位列世界超級計算機(jī)500強(qiáng)排行榜之首。上帝的計算機(jī)或許是個玩笑,但是作為智能體上帝的計算機(jī),很可能就誕生在現(xiàn)在的各種超算之中。
深度學(xué)習(xí)之超算平臺
如今,為了容納深度學(xué)習(xí)的超大規(guī)模計算需求,超級計算機(jī)已經(jīng)成為訓(xùn)練各種深度神經(jīng)網(wǎng)絡(luò)的利器。深度學(xué)習(xí)技術(shù)試圖通過大規(guī)模的神經(jīng)網(wǎng)絡(luò)和大數(shù)據(jù)提供的海量訓(xùn)練集合,將大腦學(xué)習(xí)識別的過程加以抽象,從而獲得極高的識別準(zhǔn)確度,這些都帶來了極大的計算需求和吞吐需求。于是,這些以往高居廟堂的屠龍之技有了用武之地:GPU協(xié)處理器、高速InfiniBand網(wǎng)絡(luò)、RDMA、GPUDirect等成了利器,提供著高吞吐、低延遲、高性能的系統(tǒng)平臺。雖然離著無窮還有無窮,但是為分布式大規(guī)模的深度學(xué)習(xí)算法提供了極高的帶寬和極低的延遲,使通信的開銷最小化,為訓(xùn)練各種深度網(wǎng)絡(luò)提供了強(qiáng)大的平臺。