深度學(xué)習(xí)在視覺問題上所取得的成功可歸因于以下幾點(diǎn):
高容量模型;
高速增長的計(jì)算力;
大規(guī)模標(biāo)記數(shù)據(jù)的可用性。
自2012年以來,模型的性能和GPU的計(jì)算力都已取得非常大的進(jìn)步。但最大數(shù)據(jù)集的大小卻出乎意料地保持現(xiàn)狀。那如果我們將數(shù)據(jù)集的大小擴(kuò)大10倍或是100倍會發(fā)生什么呢 本文在揭秘“超大規(guī)模數(shù)據(jù)”和深度學(xué)習(xí)之間那云里霧里的關(guān)系上取得了一大步進(jìn)展。我們利用JFT—300 M數(shù)據(jù)集,圖片超過3億張中已逾有3.75億個具有噪聲的標(biāo)簽。我們在研究,如果這個數(shù)據(jù)集用于表征學(xué)習(xí),那么當(dāng)前的視覺任務(wù)的性能將發(fā)生怎樣的變化。
我們的論文提供了一些預(yù)期之外的(和一些預(yù)期之內(nèi)的)發(fā)現(xiàn):
視覺任務(wù)的性能仍然以訓(xùn)練數(shù)據(jù)大小的數(shù)量級線性增加;
表征學(xué)習(xí)(或預(yù)訓(xùn)練)仍然有很大的用途。通過訓(xùn)練更好的基礎(chǔ)模型,便可以提高視覺任務(wù)的性能;
正如預(yù)期的那樣,我們在包括圖像分類、目標(biāo)檢測、語義分割和人體姿態(tài)評估等不同視覺任務(wù)上呈現(xiàn)出了新的基于目前技術(shù)水平的研究成果。
我們真誠希望可以以此來激發(fā)那些機(jī)器視覺的相關(guān)社區(qū),不要低估數(shù)據(jù)的重要性,以及要發(fā)展集體努力從而建設(shè)更大的數(shù)據(jù)集。
眾所周知,目前的卷積神經(jīng)網(wǎng)絡(luò)革命是大型標(biāo)注數(shù)據(jù)集的產(chǎn)物(具體來說,來自ImageNet的大小為1M的標(biāo)記圖像)和大規(guī)模計(jì)算能力(得益于GPU)。每年我們都在進(jìn)一步增加計(jì)算能力(更新、更快的GPU),但是我們的數(shù)據(jù)集并沒有那么幸運(yùn)。ImageNet是一個基于1000個類別的1M標(biāo)記圖像的數(shù)據(jù)集,五年多以前用于訓(xùn)練AlexNet。
奇怪的是,雖然GPU和模型容量都在不斷增長,但是對這些模型進(jìn)行訓(xùn)練的數(shù)據(jù)庫仍然停滯不前。即使是具有明顯更多容量和深度的101層的ResNet,仍然使用來自ImageNet大約2011年的1M Image圖像進(jìn)行訓(xùn)練。為什么 在更深層次的模型和計(jì)算能力之前,我們再次貶低了數(shù)據(jù)的重要性嗎 如果我們將訓(xùn)練數(shù)據(jù)的量增加10倍或100倍,性能會翻番么
視覺數(shù)據(jù)集的奇怪案例:盡管GPU計(jì)算能力和模型尺寸在過去五年中不斷增加,但是訓(xùn)練數(shù)據(jù)集的大小卻驚人地保持不變。這是為什么 如果我們使用我們的資源來增加數(shù)據(jù)集大小,會發(fā)生什么
本論文采取的第一步,是明晰“超大規(guī)模數(shù)據(jù)”與深度學(xué)習(xí)之間的神秘關(guān)系。當(dāng)然,重要的是,如何收集比ImageNet還大的數(shù)據(jù)集。為了測試當(dāng)前模型的極限和上限,我們可能需要一個幾乎比ImageNet大100倍的數(shù)據(jù)集。事實(shí)表明,收集1M圖像的1000個類別,每個問題將需要1000萬美元。ImageNet使用了幾種啟發(fā)式(例如標(biāo)簽層級)來減少問題,從而將成本降低到10萬美元。但是,大于100倍的數(shù)據(jù)集仍然需要超過1000萬美元。
在本論文中,我們利用了一個已經(jīng)存在的JFT圖像數(shù)據(jù)集,該數(shù)據(jù)集由Geoffrey Hinton等科學(xué)家最早提出。JFT數(shù)據(jù)集擁有超過3億張圖像,標(biāo)有18291個類別。注釋是自動獲得的,因此,這些注釋比較嘈雜,并不是詳盡無遺的。這些注釋已經(jīng)使用復(fù)雜的算法進(jìn)行清理,以提高標(biāo)簽的精度;然而,精度仍然有大約20%的誤差。我們將使用這些數(shù)據(jù)來研究數(shù)據(jù)量與視覺性能之間的關(guān)系。具體來說,我們將研究視覺表征學(xué)習(xí)(預(yù)訓(xùn)練)的數(shù)據(jù)的能力。我們評估各種視覺任務(wù)的學(xué)習(xí)性能:圖像分類、對象檢測、語義分割和人體姿態(tài)評估。我們的實(shí)驗(yàn)產(chǎn)生了一些令人驚訝(和一些預(yù)期)的發(fā)現(xiàn):
更好的表征學(xué)習(xí)真的有用!
我們的第一個觀察是,大規(guī)模數(shù)據(jù)有助于表征學(xué)習(xí),這是被我們研究的每個視覺任務(wù)的性能改善所證明的。
這表明,收集更大規(guī)模的數(shù)據(jù)集以研究預(yù)訓(xùn)練過程,可能會對該領(lǐng)域產(chǎn)生極大的好處。我們的研究結(jié)果還表明,無監(jiān)督或自監(jiān)督表征學(xué)習(xí)方法的光明前景。數(shù)據(jù)量似乎可以超越標(biāo)簽空間的噪音。
性能隨著訓(xùn)練數(shù)據(jù)的數(shù)量級線性增加!
也許我們發(fā)現(xiàn)的最令人驚奇的要素是,視覺任務(wù)的性能與用于表示學(xué)習(xí)的訓(xùn)練數(shù)據(jù)(對數(shù)量表)的數(shù)量之間的關(guān)系。我們發(fā)現(xiàn)這種關(guān)系還是線性的!即使是3億張訓(xùn)練圖像,我們對所研究的任務(wù)也沒有觀察到任何平臺效應(yīng)。