日前,NVIDIA發(fā)布了其 GPU 加速深度學習軟件的更新版本,這些軟件將令深度學習訓練的性能翻一番。
新軟件將讓數(shù)據(jù)科學家和研究人員能夠通過更快的模型訓練和更復雜的模型設計來創(chuàng)造更準確的神經(jīng)網(wǎng)絡,從而加速其深度學習項目和產(chǎn)品的開發(fā)工作。
NVIDIA® DIGITS™ 深度學習 GPU 訓練系統(tǒng)第 2 版 (DIGITS 2) 和 NVIDIA CUDA® 深度神經(jīng)網(wǎng)絡庫第 3 版 (cuDNN 3) 可提供大幅提升的性能和全新的功能。
對數(shù)據(jù)科學家來說,DIGITS 2 現(xiàn)在能夠在多顆高性能 GPU 上實現(xiàn)神經(jīng)網(wǎng)絡訓練的自動擴展。與單一 GPU 相比,這種擴展在圖像分類方面能夠令深度神經(jīng)網(wǎng)絡訓練的速度翻一番。
對深度學習的研究人員來說,cuDNN 3 可優(yōu)化 GPU 內(nèi)存中的數(shù)據(jù)存儲,從而能夠訓練更大、更復雜的神經(jīng)網(wǎng)絡。cuDNN 3 還能夠提供高于 cuDNN 2 的性能,讓研究人員在單一 GPU 上最高可令神經(jīng)網(wǎng)絡訓練速度達到兩倍。
全新的 cuDNN 3 庫預計將集成到 Caffe、Minerva、Theano 以及 Torch 等深度學習框架的未來版本中,這些框架被廣泛用于訓練深度神經(jīng)網(wǎng)絡。
NVIDIA 加速計算副總裁 Ian Buck 表示: “高性能 GPU 是為大學與大型網(wǎng)絡服務公司支撐深度學習研究與產(chǎn)品開發(fā)的基礎性技術。我們正與數(shù)據(jù)科學家、框架開發(fā)者以及深度學習社區(qū)密切合作,以便運用最強大的 GPU 技術、突破目前的極限?!?/P>
DIGITS 2 – 憑借自動多 GPU 擴展最高可實現(xiàn)兩倍訓練速度
DIGITS 2 是首個一體式圖形系統(tǒng),它在圖像分類方面可指導用戶完成設計、訓練以及驗證深度神經(jīng)網(wǎng)絡的整個過程。
DIGITS 2 中全新的自動多 GPU 擴展功能通過在系統(tǒng)中的所有 GPU 上自動分配深度學習訓練任務,從而能夠最大限度地增加可用的 GPU 資源。利用 DIGITS 2,在四顆 NVIDIA Maxwell™ 架構(gòu) 的GPU 上,NVIDIA 的工程師令著名的 AlexNet 神經(jīng)網(wǎng)絡模型的訓練速度達到了單一 GPU 的兩倍以上。1 早期客戶的初步成果呈現(xiàn)了更好的加速效果。
雅虎旗下 Flickr 網(wǎng)站的人工智能架構(gòu)師 Simon Osindero 表示: “在自動加標簽 (Auto-tagging) 這方面,在單一 NVIDIA GeForce GTX TITAN X 上訓練我們的一個深度網(wǎng)絡需要耗費大約 16 天時間,但是如果在四顆 TITAN X GPU 上利用全新的自動多 GPU 擴展功能,整個訓練只需 5 天即可完成。這是一個巨大的進步,它讓我們能夠更快地看到結(jié)果,還讓我們能夠在模型方面進行更廣泛地探索以便實現(xiàn)更高的精度?!?/P>
cuDNN3 – 更快地訓練更大、更復雜的模型
cuDNN 是一款用于深度神經(jīng)網(wǎng)絡的 GPU 加速數(shù)學例程庫,開發(fā)者可以將其集成到更高級的機器學習框架中。
cuDNN3 在 GPU 內(nèi)存中新增了對 16 位浮點數(shù)據(jù)存儲的支持,使可存儲的數(shù)據(jù)量翻了一番,優(yōu)化了內(nèi)存帶寬。憑借這一功能,cuDNN 3 讓研究人員能夠訓練更大、更復雜的神經(jīng)網(wǎng)絡。
百度研究院高級研究員 Bryan Catanzaro 表示: “我們認為,NVIDIA 庫中的 FP16 GPU 存儲支持功能將讓我們進一步擴展我們的模型,因為當我們把單一模型的訓練任務擴展至多顆 GPU 時,這一功能將會增大我們硬件的有效內(nèi)存容量并提升效率。這將會使得我們的模型精度進一步提升?!?/P>
至于在單一 GPU 上訓練神經(jīng)網(wǎng)絡,cuDNN 3 也能夠?qū)崿F(xiàn)大大高于 cuDNN 2 的性能。它讓 NVIDIA 工程師在單一 NVIDIA GeForce® GTX™ TITAN X GPU 上訓練 AlexNet 模型時實現(xiàn)了兩倍的速度。2