8月17日,在美國舊金山舉行的英特爾信息技術(shù)峰會(Intel Developer Forum,簡稱IDF)上,浪潮首席科學(xué)家胡雷鈞進(jìn)行了先進(jìn)技術(shù)報(bào)告演講,他結(jié)合當(dāng)前深度學(xué)習(xí)應(yīng)用特點(diǎn)和先進(jìn)計(jì)算技術(shù)架構(gòu)進(jìn)行分析,認(rèn)為KNL+FPGA是加速深度學(xué)習(xí)的黃金搭檔。
深度學(xué)習(xí)在人臉識別、語音識別、精準(zhǔn)醫(yī)療以及無人駕駛等領(lǐng)域被廣泛的應(yīng)用,近年來在高性能計(jì)算技術(shù)的支持下,其發(fā)展十分迅速。然而,深度學(xué)習(xí)的發(fā)展也面臨著眾多困境,如深度學(xué)習(xí)軟件擴(kuò)展性不夠高、計(jì)算性能不夠高、深度學(xué)習(xí)線上識別能耗大等問題。
在多年的深度學(xué)習(xí)計(jì)算系統(tǒng)實(shí)踐中,浪潮發(fā)現(xiàn)深度學(xué)習(xí)應(yīng)用具備如下特點(diǎn): 在進(jìn)行線下的模型訓(xùn)練時(shí),計(jì)算系統(tǒng)需要處理較大規(guī)模的數(shù)據(jù)量,所以訓(xùn)練時(shí)間非常長,它需要龐大的計(jì)算資源去訓(xùn)練一個模型;而當(dāng)深度學(xué)習(xí)應(yīng)用的相關(guān)服務(wù)或產(chǎn)品上線時(shí),系統(tǒng)卻因?yàn)橐幚沓汕先f的人均訪問量往往規(guī)模巨大,這時(shí)深度學(xué)習(xí)應(yīng)用對能耗的控制需求就非常高。結(jié)合以上特點(diǎn),浪潮首席科學(xué)家胡雷鈞提出,深度學(xué)習(xí)平臺構(gòu)建應(yīng)該根據(jù)線下訓(xùn)練和線上識別的不同應(yīng)用特點(diǎn)分別定制開發(fā)高性能計(jì)算解決方案。
今年6月,英特爾推出新一代融核處理器Knights Landing(以下簡稱KNL)受到業(yè)內(nèi)廣泛關(guān)注,其具備多達(dá) 72 個核心,雙精度浮點(diǎn)性能超過3TFlops,單精度則超過6TFlops,被認(rèn)為是高性能計(jì)算和深度學(xué)習(xí)的革命性產(chǎn)品。胡雷鈞認(rèn)為,KNL的性能十分強(qiáng)大,非常合適做深度學(xué)習(xí)線下訓(xùn)練的平臺構(gòu)建。而對于能耗要求比較高的線上識別平臺,胡雷鈞認(rèn)為可考慮采用FPGA,F(xiàn)PGA的能耗比是CPU的5倍以上,可大幅節(jié)省系統(tǒng)能耗,滿足深度學(xué)習(xí)線上識別平臺的構(gòu)建需求。因此,采用KNL+FPGA的深度學(xué)習(xí)平臺構(gòu)建方案是加速深度學(xué)習(xí)應(yīng)用的最佳組合。
KNL+FPGA深度學(xué)習(xí)平臺構(gòu)建方案在浪潮的應(yīng)用實(shí)踐中得到了證實(shí),浪潮曾全球首發(fā)基于最新KNL平臺的深度學(xué)習(xí)計(jì)算框架Caffe-MPI。此外,浪潮聯(lián)合科大訊飛和Altera用OpenCL實(shí)現(xiàn)的FPGA深度學(xué)習(xí)語音識別加速方案采用CPU+Altera Arria 10 FPGA異構(gòu)架構(gòu),軟件完全采用高級編程模式OpenCL實(shí)現(xiàn)從CPU到FPGA的遷移,在100 bound數(shù)據(jù)的處理?xiàng)l件下,基于Altera ARRIA 10 FPGA的DNN運(yùn)行時(shí)間比基于Intel Xeon E5-2650 V2 雙路CPU的性能加速2.871倍,在DNN 實(shí)際運(yùn)行測試中,F(xiàn)PGA可實(shí)現(xiàn)30GFlops/W的高性能功耗比,而采用OpenCL編程模型使得最終的軟件開發(fā)周期比傳統(tǒng)verilog方式縮短了1/3.
浪潮作為領(lǐng)先的云計(jì)算、大數(shù)據(jù)和高性能計(jì)算服務(wù)商,其深度學(xué)習(xí)計(jì)算系統(tǒng)已經(jīng)應(yīng)用于百度、阿里巴巴、奇虎360、科大訊飛等多家互聯(lián)網(wǎng)廠商,市場占有率超過60%。