相似地,如果你使用多個(gè) GPU 處理深度學(xué)習(xí)在數(shù)天或數(shù)周中的并行訓(xùn)練問(wèn)題,這也是當(dāng)前的常見(jiàn)情形,你可以相對(duì)輕松地將這些學(xué)習(xí)結(jié)果同步化。
但是當(dāng) GPU 變得更快,它們的學(xué)習(xí)也更快;并且它們不得不以一種傳統(tǒng)軟件無(wú)法實(shí)現(xiàn)的速率與其他 GPU 共享學(xué)習(xí)。這就為系統(tǒng)網(wǎng)絡(luò)增加了壓力,并且是一個(gè)棘手的技術(shù)問(wèn)題?;緛?lái)講,更智能更快的 GPU 需要更好的通信方式,否則它們就無(wú)法同步,并花費(fèi)絕大多數(shù)時(shí)間等待彼此的結(jié)果。因此,你不會(huì)從學(xué)習(xí)更快的 GPU 中獲得加速。
當(dāng)你查看擴(kuò)展效率,或者當(dāng)你添加 GPU 看到如何接近于完美的系統(tǒng)性能擴(kuò)展時(shí),我們使用(DDL)軟件解決這個(gè)功能性差距的能力是顯而易見(jiàn)的。這些測(cè)量提供了一個(gè)視角來(lái)觀察 256 塊 GPU 如何很好地「討論」彼此的知識(shí)。
之前,256 塊 GPU 的最佳擴(kuò)展來(lái)自 Facebook 人工智能研究院(FAIR)的一個(gè)團(tuán)隊(duì)。FAIR 使用了一個(gè)較小的深度學(xué)習(xí)模型 ResNet-50,和一個(gè)較小的大約 130 萬(wàn)張圖像的數(shù)據(jù)集 ImageNet-1K;二者降低了計(jì)算復(fù)雜度,并使用較大的 8192 的批量大小;最終,通過(guò) Caffe2 在 256 塊英偉達(dá) P100 GPU 加速集群上取得了 89% 的擴(kuò)展效率。對(duì)于一個(gè) ResNet-50 模型和一個(gè)與 Facebook 相同的數(shù)據(jù)集,IBM Research DDL 通過(guò) Caffe 實(shí)現(xiàn)了 95% 的效率,如下表所示。這是在 64 臺(tái)「Minsky」Power S822LC 系統(tǒng)的集群上運(yùn)行的,每個(gè)系統(tǒng)有 4 塊英偉達(dá) P100 GPU。
通過(guò) 256 塊 GPU 擴(kuò)展 IBM DDL 性能
為了從 ImageNet-22K 數(shù)據(jù)集中的 7.5M 圖像上訓(xùn)練出更大的 ResNet-101 模型(每個(gè)圖像批量大小為 5120),我們實(shí)現(xiàn)了 88% 的擴(kuò)展效率。
我們也打破了記錄,取得了 50 分鐘的最快絕對(duì)訓(xùn)練時(shí)間,而 Facebook 之前的記錄是 60 分鐘。通過(guò)把 DDL 用到 256 塊 GPU 上來(lái)擴(kuò)展 Torch,我們借助 ImageNet-1K 模型訓(xùn)練 ResNet-50 模型。Facebook 使用 Caffe2 訓(xùn)練了一個(gè)相似的模型。
對(duì)于開(kāi)發(fā)者和數(shù)據(jù)科學(xué)家來(lái)說(shuō),IBM DDL 軟件展示的 API 每一個(gè)深度學(xué)習(xí)框架皆可使用,并可擴(kuò)展到多個(gè)服務(wù)器。PowerAI 企業(yè)深度學(xué)習(xí)軟件版本 4 中現(xiàn)已提供技術(shù)預(yù)覽,使得這一集群擴(kuò)展功能可用于任何使用深度學(xué)習(xí)訓(xùn)練 AI 模型的組織。我們期望,通過(guò) DDL 在 AI 社區(qū)中的普及,我們將看到更多更高精度的運(yùn)行,因?yàn)槠渌嗽?AI 建模訓(xùn)練中利用了集群的力量。