IBM Research 在 arXiv 發(fā)表文章,稱使用新型分布式深度學(xué)習(xí)軟件可達(dá)到幾乎完美的擴(kuò)展效果,該系統(tǒng)在 64 位 IBM Power system 的 256 個英偉達(dá) GPU 上使用 Caffe 深度學(xué)習(xí)框架獲得了破紀(jì)錄的通信成本,擴(kuò)展效率高達(dá) 95%。之前的最佳擴(kuò)展效率是 Facebook AI Research 發(fā)布的 89%,其在 Caffe2 上訓(xùn)練運(yùn)行,通信成本相對較高。IBM Research 還以 50 分鐘的模型訓(xùn)練時間在時間方面優(yōu)于 Facebook 的模型。使用該系統(tǒng),IBM Research 在大型數(shù)據(jù)集(7.5M 圖像)上利用神經(jīng)網(wǎng)絡(luò)達(dá)到新的圖像識別準(zhǔn)確率——33.8%。微軟之前發(fā)布的記錄是 29.8%。
深度學(xué)習(xí)是一種廣泛使用的人工智能方法,它幫助計(jì)算機(jī)理解人類用來感知世界的圖像和聲音,并從中抽取意義。該方法有望幫助從消費(fèi)者手機(jī) app 體驗(yàn)到醫(yī)療影像診斷的所有領(lǐng)域中實(shí)現(xiàn)突破。但是大規(guī)模部署深度學(xué)習(xí)的準(zhǔn)確率和可行性受到技術(shù)因素的限制,如訓(xùn)練基于大型復(fù)雜深度學(xué)習(xí)的 AI 模型,該過程的訓(xùn)練時間需要用天或周來衡量。
我在 IBM Research 的團(tuán)隊(duì)一直致力于減少在大數(shù)據(jù)集上訓(xùn)練大型模型的時間。我們的目標(biāo)是將深度學(xué)習(xí)訓(xùn)練的等待時間從數(shù)天或數(shù)小時縮減至幾分鐘甚至幾秒,并改善這些 AI 模型的準(zhǔn)確率。為了達(dá)到該目標(biāo),我們在大量服務(wù)器和多個英偉達(dá) GPU 的分布式深度學(xué)習(xí)中解決了擴(kuò)展問題這一巨大挑戰(zhàn)。
最流行的深度學(xué)習(xí)框架可以在一個服務(wù)器的多個 GPU 上擴(kuò)展,但是無法在具備多個 GPU 的多個服務(wù)器上擴(kuò)展。具體來說,我們的團(tuán)隊(duì)(Minsik Cho、Uli Finkler、David Kung 以及他們的合作伙伴)寫出的軟件和算法,能夠在數(shù)十個服務(wù)器上的數(shù)百個 GPU 加速器之間自動執(zhí)行和優(yōu)化大型復(fù)雜計(jì)算任務(wù)的并行化。
IBM 研究員 Hillery Hunter 用前所未有的 GPU 處理速度開發(fā)新軟件。
我們的軟件可以完全同步地進(jìn)行深度學(xué)習(xí)訓(xùn)練,并且這種訓(xùn)練只有非常少的通信成本。因此,當(dāng)我們將該系統(tǒng)擴(kuò)展到有 100 多個英偉達(dá) GPU 的大型計(jì)算機(jī)集群時,它在 ImageNet-22K 數(shù)據(jù)集上的 7.5M 圖片上識別精度達(dá)到了 33.8%,而前面最好的結(jié)果是微軟實(shí)現(xiàn)的 29.8%,4% 的性能提升已經(jīng)是十分巨大的進(jìn)步了,因?yàn)橐郧暗木忍嵘旧隙荚?1% 以內(nèi)。我們所提出的分布式深度學(xué)習(xí)(DDL)方法不僅能提升性能,還能在 7 小時內(nèi)訓(xùn)練一個 101 層的殘差網(wǎng)絡(luò),因?yàn)樗芾?10 個配備 100 塊英偉達(dá) GPU 的服務(wù)器的計(jì)算力。相比之下,微軟可能需要十天的時間來訓(xùn)練相同的模型。這個成就進(jìn)一步要求我們創(chuàng)建 DDL 代碼和算法,以克服擴(kuò)展到其他強(qiáng)力深度學(xué)習(xí)框架所遇到的固有問題。
這些結(jié)果都是在為測試深度學(xué)習(xí)算法和系統(tǒng)而構(gòu)建的基準(zhǔn)上完成的,所以 33.8% 的驗(yàn)證精度可能看起來不高,但是它要顯著地高于以前的最優(yōu)結(jié)果。給定任意一張圖片,該系統(tǒng)將會在 22000 個選項(xiàng)中給出最佳的選擇(Top-1 accuracy),并且精度還能達(dá)到 33.8%。我們的技術(shù)將幫助其它 AI 模型在具體的任務(wù)上訓(xùn)練,例如醫(yī)療影像中的癌細(xì)胞檢測就能變得更加精確,并且訓(xùn)練或再訓(xùn)練都只需要數(shù)小時。
FAIR(Facebook AI Research)六月份發(fā)表的研究論文中描述了這個問題,該論文使用較小的數(shù)據(jù)集(ImageNet 1k)和較小的神經(jīng)網(wǎng)絡(luò)(ResNet 50)解釋了他們杰出的研究成果:
深度學(xué)習(xí)的興起得益于大型神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)集。但是,大型網(wǎng)絡(luò)和數(shù)據(jù)集導(dǎo)致了較長的訓(xùn)練時間,這阻礙了研發(fā)的前進(jìn)步伐。
諷刺的是,這個在多服務(wù)器上策劃和優(yōu)化深度學(xué)習(xí)的問題隨著 GPU 不斷變快,也變得越發(fā)困難了。這一問題在深度學(xué)習(xí)系統(tǒng)中造成了一種功能差距,驅(qū)使著我們創(chuàng)建新型的 DDL 軟件,以使在高性能和高精確度的大規(guī)模神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)集上運(yùn)行流行的開源代碼(比如 Tensorflow、Caffe、Torch 和 Chainer)成為可能。
「盲人摸象」的說法有助于描述我們正在解決的問題和已經(jīng)取得的早期成果的背景。根據(jù)維基百科:
「……每一個盲人只能感受到大象的一部分,比如大象身體的一側(cè)或者象牙。然后他們基于這一片面經(jīng)驗(yàn)描述大象,這些描述和大象完全不同?!?/p>
現(xiàn)在,盡管存在初始化差異(initial disagreement),但如果這些人有足夠的時間,他們能夠共享信息,并將其組合成相當(dāng)準(zhǔn)確的大象的定義。