目前,國內(nèi)人工智能技術已經(jīng)日趨成熟,科大訊飛的語音識別、小米的智能硬件、百度的無人駕駛汽車都從各個領域影響著我們的生活。人工智能背后,是由深度學習建立、模擬人腦進行分析學習的神經(jīng)網(wǎng)絡,它模仿人腦的機制來解釋數(shù)據(jù),讓機器會思考會判斷。但是深度學習所需要的并行計算不是CPU的強項,因此高性能的CPU+GPU協(xié)處理加速的服務器正成為實現(xiàn)深度學習必不可少的基礎硬件。
但是,目前市場上GPU服務器的配置各異,有2U2卡,1U4卡,3U8卡,4U4卡,4U8卡等等服務器形態(tài)。如何做好選擇,搭建最合理的訓練架構,是開啟深度學習之路的第一步,這一步也會關系到后期訓練的效果。作為人工智能領域的先行者,百度在其無人車路況模型訓練中,選擇的是浪潮NF5568M4 異構超算服務器,在4U空間內(nèi)配備雙路E5-2600v3 CPU和4塊GPU卡,單機最高雙精度浮點計算能力可達每秒7.5萬億次。那么,百度、阿里巴巴、奇虎等領先的互聯(lián)網(wǎng)企業(yè)為何選擇NF5568M4這類4U4卡的異構超算服務器?
進行道路測試的百度無人車
性能為王,但仍需考慮適用性
多卡GPU+CPU架構架構需要大量的GPU核心數(shù),在單機內(nèi)的選型原則,以最多卡數(shù)為主。理論上,單機越多GPU卡的堆疊,性能也會達到更高。但是,每塊GPU卡的功耗在235W—250W左右,加上服務器的CPU和其他部件,一臺4卡GPU機器在工作狀態(tài)會達到近2000W的功率,而8卡的甚至能達到3600W以上。
GPU卡因強大的并行計算能力而成為“功耗大戶”
目前,大部分公司的機房都是租賃的IDC機房,現(xiàn)在國內(nèi)機房提供的機柜一般為42U高度,電量10A,13A或者16A,換算為功率就是2200W,2860W或者3520W。而42U的機柜用電,被4U高度的GPU全部占用,這顯然不能被接受。因此,像浪潮NF5568M4這類單機4塊GPU卡的配置是目前互聯(lián)網(wǎng)行業(yè)的主流,既能達到足夠的計算能力,又能兼顧機房用電。
浪潮NF5568M4異構超算服務器
4U高度,給熱空氣一點出路
一臺4卡GPU機器在工作狀態(tài)會達到近2000W的功率,而8卡的甚至能達到3600W以上,如此大的功率就有大量的散熱需求,一般情況下,GPU卡和服務器風扇的設計比例是1:1,以滿足散熱需求。但是根據(jù)實測1U或2U高度的服務器,一旦達到4卡或8卡跑滿,整機溫度曾經(jīng)飆升到96攝氏度!
浪潮NF5568M4具有良好的散熱性能
為了解決散熱問題,只能大幅度的提高機器風扇的轉速,這樣會大大提高機器的功耗,功耗問題還是其次,問題是提高風扇轉速之后帶來較大的噪音和震動,會嚴重縮減機器的壽命,甚至會發(fā)生宕機,給業(yè)務帶來嚴重影響。另外1U、2U由于空間受限,也會對擴展能力產(chǎn)生影響,沒有辦法實現(xiàn)雙網(wǎng)卡+raid保護功能。
浪潮NF5568M4擁有4U的高度,因此內(nèi)部有更多的空間和通道用于散熱,并且單機設計了多達10個散熱風扇,給熱空氣留一點出路,也就為GPU卡降低一點溫度。
優(yōu)化Caffe框架,實現(xiàn)多機多卡GPU集群
隨著神經(jīng)網(wǎng)絡模型的日趨復雜,模型訓練所需要的計算性能也急劇攀升。單機單卡甚至單機多卡的設計已經(jīng)不能滿足部分用戶的需求。為此,浪潮發(fā)布集群版Caffe-MPI計算框架,實現(xiàn)跨GPU服務器的并行計算。
它采用高性能計算行業(yè)成熟的MPI技術對Caffe版本進行數(shù)據(jù)并行的優(yōu)化,可通過IB網(wǎng)絡將多臺NF5568M4組成GPU并行計算集群。據(jù)實測,由4臺NF5568M4組成的16卡GPU集群,性能較單卡提升13倍,節(jié)點擴展效率達到90%以上。既發(fā)揮4卡機器穩(wěn)定性、散熱等優(yōu)勢,又能實現(xiàn)多機多卡的高性能GPU計算集群,滿足客戶高強度并行計算需求。