3、下一代GPU 架構(gòu)Pascal,將使深度學(xué)習(xí)應(yīng)用中的計(jì)算速度相比Maxwell加快十倍。
Pascal引入了大幅加快訓(xùn)練速度的三項(xiàng)設(shè)計(jì),包括:32GB 的顯存(是GeForce GTX TITAN X 的 2.7 倍),可進(jìn)行混合精度的計(jì)算任務(wù),能夠在 16 位浮點(diǎn)精度下?lián)碛袃杀队?32 位浮點(diǎn)精度下的速率的計(jì)算速度;配備 3D 堆疊顯存,讓開發(fā)人員能建立更大的神經(jīng)網(wǎng)絡(luò),提升深度學(xué)習(xí)應(yīng)用程序的速度性能多達(dá)5倍;另搭配 NVIDIA 的高速互連技術(shù) NVLink 來連接兩個(gè)以上的 GPU,可將深度學(xué)習(xí)的速度提升達(dá)十倍。
NVIDIA表示,現(xiàn)在在深度學(xué)習(xí)領(lǐng)域一般都用單精度進(jìn)行,未來的趨勢可能有人要用半精度,甚至1/4精度,所以NVIDIA需要根據(jù)用戶的需求調(diào)整GPU的架構(gòu),Pascal支持FP16和FP32,可以提升機(jī)器學(xué)習(xí)的性能。
4、DRIVE PX,用于自動(dòng)駕駛汽車的深度學(xué)習(xí)平臺。
基于NVIDIA Tegra X1,結(jié)合最新的PX平臺,可以讓汽車在儀表顯示和自動(dòng)駕駛方面得到質(zhì)的飛躍。
值得關(guān)注的NVLink和DIGITS
談到下一代Pascal 架構(gòu)的十倍性能,不得不說NVLink,它使得 GPU 與 GPU 之間、GPU 與 CPU 之間數(shù)據(jù)傳輸?shù)乃俣?,較現(xiàn)有的 PCI-Express 標(biāo)準(zhǔn)加快5到12倍,對于深度學(xué)習(xí)這些需要更高 GPU 間傳遞速度的應(yīng)用程序來說是一大福音。開發(fā)者應(yīng)當(dāng)高興的是,NVLink基于點(diǎn)對點(diǎn)傳輸形式,編程模式與 PCI-Express 相同。
NVIDIA表示,NVLink 可將系統(tǒng)里的 GPU 數(shù)量增加一倍,以共同用于深度學(xué)習(xí)計(jì)算任務(wù)上;還能以新的方式連接 CPU 與 GPU,在服務(wù)器設(shè)計(jì)方面提供較 PCI-E 更出色的靈活性和省電表現(xiàn)。
其實(shí)不管要做數(shù)據(jù)并行還是模型并行,NVLink對深度學(xué)習(xí)開發(fā)人員都帶來更大的想象空間。國內(nèi)語音識別領(lǐng)頭羊科大訊飛,基于多GPGPU和InfiniBand構(gòu)建了一個(gè)環(huán)形的并行學(xué)習(xí)架構(gòu),用于DNN、RNN、CNN等模型訓(xùn)練,效果不錯(cuò),但采用InfiniBand也讓其他從業(yè)者羨慕其“土豪”行徑,如果有了NVLink,顯然可以有別的好辦法。
當(dāng)然,想用NVLink也意味著新的投資,而NVIDIA現(xiàn)有的產(chǎn)品線對深度學(xué)習(xí)的支持也不錯(cuò),用戶可以酌情選擇。更多的深度學(xué)習(xí)硬件選擇知識,可以參考Kaggle比賽選手Tim Dettmers撰寫的博文:《深度學(xué)習(xí)硬件指南完整版》。
另外一個(gè)是DIGITS,用于設(shè)計(jì)、訓(xùn)練和驗(yàn)證圖像分類深度神經(jīng)網(wǎng)絡(luò)的多合一圖形系統(tǒng)。DIGITS 可在安裝、配置和訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)過程中為用戶提供指導(dǎo),具有便于從本地和網(wǎng)絡(luò)加載訓(xùn)練數(shù)據(jù)集的用戶界面和工作流程管理能力,并提供實(shí)時(shí)監(jiān)控和可視化功能,目前支持 GPU 加速版本 Caffe,詳見Parallel Forall 博客:《DIGITs: Deep Learning Training System》。
DIGITS之所以首先選擇支持Caffe,NVIDIA表示,是因?yàn)樗麄兊目蛻粽{(diào)研結(jié)果顯示這一框架目前最受歡迎(包括國內(nèi)的BAT等和國外的一些用戶),同理,cuDNN運(yùn)算庫也是最先集成到Caffe開源工具中。NVIDIA承諾,即使不能覆蓋所有的工具,DIGITS后續(xù)也會對主流的開源工具提供支持,主要是前述的Theano和Torch。NVIDIA全球在DIGITS、cuDNN團(tuán)隊(duì)都分別投入30多人到開源工作之中,這些開發(fā)人員也在社區(qū)中與深度學(xué)習(xí)開發(fā)者保持密切的溝通。
中國生態(tài)
在NVIDIA看來,國內(nèi)的深度學(xué)習(xí)研究水平與國外機(jī)構(gòu)基本相當(dāng),從高??蒲械慕嵌葋碚f,香港中文大學(xué)、中科院自動(dòng)化所都獲得ImageNet不錯(cuò)的名次,從工業(yè)界來說,BAT、樂視、科大訊飛等都在深度學(xué)習(xí)領(lǐng)域擁有很多年輕的工程師和不錯(cuò)的研究成果。NVIDIA希望加強(qiáng)中國生態(tài)環(huán)境的建設(shè),推動(dòng)深度學(xué)習(xí)的應(yīng)用,主要方式仍然包括開源社區(qū)的投入、高??蒲泻献鳌⒎?wù)器廠商的合作以及企業(yè)用戶的合作。
2015年1月,NVIDIA與愛奇藝簽署了深度合作框架協(xié)議,雙方將在視頻深度學(xué)習(xí)(deep video)和媒體云計(jì)算領(lǐng)域緊密合作,利用最先進(jìn)的GPU和深度學(xué)習(xí)架構(gòu),搭建愛奇藝視頻創(chuàng)作、分享、服務(wù)平臺。NVIDIA表示,未來還將繼續(xù)與重點(diǎn)客戶合作建立聯(lián)合實(shí)驗(yàn)室。

采用GPU加速的深度學(xué)習(xí)的企業(yè)
GPU還是專用芯片?
盡管深度學(xué)習(xí)和人工智能在宣傳上炙手可熱,但無論從仿生的視角抑或統(tǒng)計(jì)學(xué)的角度,深度學(xué)習(xí)的工業(yè)應(yīng)用都還是初階,深度學(xué)習(xí)的理論基礎(chǔ)也尚未建立和完善,在一些從業(yè)人員看來,依靠堆積計(jì)算力和數(shù)據(jù)集獲得結(jié)果的方式顯得過于暴力——要讓機(jī)器更好地理解人的意圖,就需要更多的數(shù)據(jù)和更強(qiáng)的計(jì)算平臺,而且往往還是有監(jiān)督學(xué)習(xí)——當(dāng)然,現(xiàn)階段我們還沒有數(shù)據(jù)不足的憂慮。未來是否在理論完善之后不再依賴數(shù)據(jù)、不再依賴于給數(shù)據(jù)打標(biāo)簽(無監(jiān)督學(xué)習(xí))、不再需要向計(jì)算力要性能和精度?