深度學(xué)習(xí)(Deep Learning)在這兩年風(fēng)靡全球,大數(shù)據(jù)和高性能計(jì)算平臺(tái)的推動(dòng)作用功不可沒(méi),可謂深度學(xué)習(xí)的“燃料”和“引擎”,GPU則是引擎的引擎,基本所有的深度學(xué)習(xí)計(jì)算平臺(tái)都采用GPU加速。同時(shí),深度學(xué)習(xí)已成為GPU提供商N(yùn)VIDIA的一個(gè)新的戰(zhàn)略方向,以及3月份的GTC 2015的絕對(duì)主角。
那么,GPU用于深度學(xué)習(xí)的最新進(jìn)展如何?這些進(jìn)展對(duì)深度學(xué)習(xí)框架有哪些影響?深度學(xué)習(xí)開發(fā)者應(yīng)該如何發(fā)揮GPU的潛力?GPU與深度學(xué)習(xí)結(jié)合的前景以及未來(lái)技術(shù)趨勢(shì)到底是怎么樣的?在日前的NVIDIA深度學(xué)習(xí)中國(guó)戰(zhàn)略發(fā)布會(huì)上,NVIDIA全球副總裁、PSG兼云計(jì)算業(yè)務(wù)中國(guó)區(qū)總經(jīng)理Ashok Pandey帶領(lǐng)其深度學(xué)習(xí)相關(guān)管理團(tuán)隊(duì)接受了記者的采訪,就NVIDIA的深度學(xué)習(xí)戰(zhàn)略、技術(shù)、生態(tài)、市場(chǎng)相關(guān)問(wèn)題進(jìn)行了詳細(xì)的解讀。
NVIDIA認(rèn)為,目前是數(shù)據(jù)、模型和GPU在推動(dòng)深度學(xué)習(xí)的蓬勃發(fā)展,深度學(xué)習(xí)用戶可以選擇不同的計(jì)算平臺(tái),但開發(fā)人員需要一個(gè)易于部署的平臺(tái)和良好的生態(tài)環(huán)境,包括一些基于硬件優(yōu)化的開源工具,而構(gòu)建一個(gè)良好的深度學(xué)習(xí)計(jì)算生態(tài),既是GPU現(xiàn)有的優(yōu)勢(shì),也是NVIDIA一貫的宗旨。

NVIDIA全球副總裁、PSG兼云計(jì)算業(yè)務(wù)中國(guó)區(qū)總經(jīng)理Ashok Pandey
為什么GPU與深度學(xué)習(xí)很合拍?
隨著數(shù)據(jù)量和計(jì)算力的提升,Hinton和LeCun耕耘多年的大型神經(jīng)網(wǎng)絡(luò)終有用武之地,深度學(xué)習(xí)的性能和學(xué)習(xí)精度得到很大的提升,被廣泛運(yùn)用到文本處理、語(yǔ)音和圖像識(shí)別上,不僅被Google、Facebook、百度、微軟等巨頭采用,也成為猿題庫(kù)、曠視科技這類初創(chuàng)公司的核心競(jìng)爭(zhēng)力。
那么為什么是GPU呢?最重要的是GPU出色的浮點(diǎn)計(jì)算性能特別提高了深度學(xué)習(xí)兩大關(guān)鍵活動(dòng):分類和卷積的性能,同時(shí)又達(dá)到所需的精準(zhǔn)度。NVIDIA表示,深度學(xué)習(xí)需要很高的內(nèi)在并行度、大量的浮點(diǎn)計(jì)算能力以及矩陣預(yù)算,而GPU可以提供這些能力,并且在相同的精度下,相對(duì)傳統(tǒng)CPU的方式,擁有更快的處理速度、更少的服務(wù)器投入和更低的功耗。

采用GPU加速與只采用CPU訓(xùn)練CNN的性能比較
以ImageNet競(jìng)賽為例,基于GPU加速的深度學(xué)習(xí)算法,百度、微軟和Google的計(jì)算機(jī)視覺(jué)系統(tǒng)在ImageNet圖像分類和識(shí)別測(cè)試中分別達(dá)到了5.98% (2015年1月數(shù)據(jù))4.94%(2015年2月數(shù)據(jù))、4.8%(2015年2月數(shù)據(jù))、的錯(cuò)誤率,接近或超過(guò)了人類識(shí)別水平——跑分競(jìng)賽雖然有針對(duì)已知數(shù)據(jù)集進(jìn)行特定優(yōu)化之嫌,但優(yōu)化結(jié)果對(duì)工業(yè)界的實(shí)踐仍然具有參考價(jià)值。
“人工智能從過(guò)去基于模型的方法,變成現(xiàn)在基于數(shù)據(jù)、基于統(tǒng)計(jì)的方法,主要得益于GPU高度并行的結(jié)構(gòu)、高效快速的連接能力。事實(shí)證明GPU很適合深度學(xué)習(xí)。”北京航空航天大學(xué)教授、國(guó)家“十二五 863計(jì)劃高效能計(jì)算機(jī)及應(yīng)用服務(wù)環(huán)境”重大項(xiàng)目總體組組長(zhǎng)錢德沛說(shuō)。
4款新方案
NVIDIA回顧了GTC上推出的四項(xiàng)有助于推動(dòng)深度學(xué)習(xí)發(fā)展的新產(chǎn)品和方案:
1、GeForce GTX TITAN X,為訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)而開發(fā)的GPU。
TITAN X采用 NVIDIA Maxwell GPU 架構(gòu),結(jié)合 3,072 個(gè)處理核心、單精度峰值性能為 7 teraflops,加上板載的 12GB 顯存,336.5GB/s 的帶寬,可處理用于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的數(shù)百萬(wàn)的數(shù)據(jù)。
NVIDIA介紹,TITAN X 在工業(yè)標(biāo)準(zhǔn)模型 AlexNet 上,花了不到三天的時(shí)間、使用 120萬(wàn)個(gè) ImageNet 圖像數(shù)據(jù)集去訓(xùn)練模型,而使用16核心的 CPU 得花上四十多天。
2、DIGITS DevBox,針對(duì)研究人員的桌邊型深度學(xué)習(xí)工具。
DIGITS DevBox采用四個(gè) TITAN X GPU,從內(nèi)存到 I/O的每個(gè)組件都進(jìn)行了最佳化調(diào)試,預(yù)先安裝了開發(fā)深度神經(jīng)網(wǎng)絡(luò)所需要使用到的各種軟件,包括:DIGITS 軟件包,三大流行深度學(xué)習(xí)架構(gòu)Caffe、Theano和Torch,以及 NVIDIA 完整的 GPU 加速深度學(xué)習(xí)庫(kù) cuDNN 2.0。和其他巨頭一樣,NVIDIA對(duì)開源的支持也是不遺余力。
NVIDIA表示,在關(guān)鍵深度學(xué)習(xí)測(cè)試中,DIGITS DevBox 可以提供 4 倍于單個(gè) TITAN X 的性能。使用 DIGITS DevBox 來(lái)訓(xùn)練 AlexNet 只要13個(gè)小時(shí)就能完成,而使用最好的單 GPU PC 的話則是兩天,單純使用 CPU 系統(tǒng)的話則要一個(gè)月以上的時(shí)間。