深度神經(jīng)網(wǎng)絡(luò)能夠煥發(fā)新春,大數(shù)據(jù)功不可沒,然而大數(shù)據(jù)的版權(quán)是否應(yīng)當(dāng)延伸到深度學(xué)習(xí)產(chǎn)生的知識(shí),這是一個(gè)現(xiàn)實(shí)的問題。本文通過ImageNet可視化大數(shù)據(jù)、Caffe共享深度學(xué)習(xí)模型和家中訓(xùn)練三個(gè)場(chǎng)景審查了深度學(xué)習(xí)的權(quán)值與大數(shù)據(jù)的關(guān)系,介紹了目前的問題和解決方案。文章最后預(yù)測(cè)深度學(xué)習(xí)將來可能需要相關(guān)的“AI法”。
要獲得有用的學(xué)習(xí)效果,大型多層深度神經(jīng)網(wǎng)絡(luò)(又名深度學(xué)習(xí)系統(tǒng))需要大量的標(biāo)簽數(shù)據(jù)。這顯然需要大數(shù)據(jù),但可用的可視化大數(shù)據(jù)很少。今天我們來看一個(gè)非常著名的可視化大數(shù)據(jù)來源地,深入了解一下訓(xùn)練過的神經(jīng)網(wǎng)絡(luò),然后捫心自問一些關(guān)于數(shù)據(jù)/模型所有權(quán)的問題。接下來,我們需要牢記一個(gè)基本的問題:一個(gè)學(xué)習(xí)過的神經(jīng)網(wǎng)絡(luò)的權(quán)值是輸入圖像的衍生品嗎?換句話說,當(dāng)一個(gè)深度學(xué)習(xí)系統(tǒng)使用過你的數(shù)據(jù)之后,誰應(yīng)該擁有什么?
背景:深度學(xué)習(xí)“計(jì)算機(jī)視覺秘訣”
現(xiàn)今最成功的機(jī)器學(xué)習(xí)技術(shù)之一是深度學(xué)習(xí)。深度學(xué)習(xí)引起廣泛關(guān)注的原因是由于它在處理語音[1]、文本[2]和圖像[3]等任務(wù)中展現(xiàn)出來的顯著成果。深度學(xué)習(xí)和物體識(shí)別(object recognition)技術(shù)率先在學(xué)術(shù)界萌芽(多倫多大學(xué)、紐約大學(xué)、斯坦福大學(xué)、加州大學(xué)伯克利分校、麻省理工學(xué)院和CMU等),然后被工業(yè)界采用(谷歌、Facebook和Snapchat等),現(xiàn)在新興的創(chuàng)業(yè)團(tuán)隊(duì)們(Clarifai.com、Metamind.io和Vision.ai等)正將可視化智能(visual intelligence)帶到公眾的面前。雖然人工智能的走向仍不清晰,但是深度學(xué)習(xí)將會(huì)扮演一個(gè)關(guān)鍵角色。
在可視化物體識(shí)別任務(wù)中,最常用的模型是卷積神經(jīng)網(wǎng)絡(luò)(也稱為ConvNets或CNNs)。它們可以在不使用手工選取特征引擎的情況下來進(jìn)行端對(duì)端的訓(xùn)練,但是這需要大量的訓(xùn)練圖片(有時(shí)候稱為大數(shù)據(jù),或者可視化大數(shù)據(jù))。這些大型的神經(jīng)網(wǎng)絡(luò)從一個(gè)空白模型開始,使用一種高度優(yōu)化的反向傳播算法進(jìn)行端對(duì)端的訓(xùn)練。反向傳播算法不過是在微積分101課程中學(xué)到的鏈?zhǔn)椒▌t,并且現(xiàn)在的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法同二十世紀(jì)80年代的算法幾乎沒什么不一樣。但是今天高度優(yōu)化的BP的實(shí)現(xiàn)是基于GPU的,它能夠處理的數(shù)據(jù)量遠(yuǎn)多于互聯(lián)網(wǎng)、云、GPU時(shí)代之前的神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)的訓(xùn)練結(jié)果是一些權(quán)值的集合,這些學(xué)習(xí)過的權(quán)值代表的是模型架構(gòu)中不同層上的權(quán)值——用浮點(diǎn)數(shù)表示的這些上百萬個(gè)的權(quán)值代表了從圖像中學(xué)到的內(nèi)容。那么,關(guān)于這些權(quán)值,其中有趣的是什么呢?有趣的是權(quán)值和大數(shù)據(jù)之間的關(guān)系,現(xiàn)在,這種關(guān)系將受到審查。
“基于ImageNet訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)權(quán)值是ImageNet的衍生品嗎?是數(shù)以百萬計(jì)的版權(quán)聲明的‘污水坑’嗎?通過訓(xùn)練來逼近另外一個(gè)ImageNet網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)又算是什么?”(這個(gè)問題在HackerNews上被提出,出自kastnerkyle對(duì)文章“ A Revolutionary Technique That Changed Machine Vision”的評(píng)論。)
在計(jì)算機(jī)視覺的背景下,這個(gè)問題確實(shí)引起了我的興趣,因?yàn)槲覀冮_始看到機(jī)器人和裝備了人工智能技術(shù)的設(shè)備進(jìn)入到了我們的家園中。我希望這個(gè)問題在未來的十年中受到更多更深的重視?,F(xiàn)在先讓我們看看在2015年中正在解決的一些問題吧。
1.ImageNet:非商業(yè)化的可視化大數(shù)據(jù)
讓我們先看一下一個(gè)在深度學(xué)習(xí)系統(tǒng)中最常用的數(shù)據(jù)源——ImageNet[4],這個(gè)數(shù)據(jù)源設(shè)計(jì)的目的是用于識(shí)別大量的不同物體。對(duì)于研究大規(guī)模物體識(shí)別和檢測(cè)的學(xué)者來講,ImageNet是最大的可視化大數(shù)據(jù)。2009年,該數(shù)據(jù)集出現(xiàn)在由Fei-Fei Li研究團(tuán)隊(duì)發(fā)表的一篇CVPR文章中,之后,該數(shù)據(jù)集取代了PASCAL數(shù)據(jù)集(這個(gè)數(shù)據(jù)集樣本的數(shù)量和多樣性不夠)和LabelMe數(shù)據(jù)集(這個(gè)數(shù)據(jù)集樣本缺乏標(biāo)準(zhǔn)化)。ImageNet數(shù)據(jù)集脫胎于Caltech101(2004年的一個(gè)數(shù)據(jù)集,側(cè)重于圖像分類,同樣由Fei-Fei Li團(tuán)隊(duì)研發(fā)),所以我個(gè)人還是認(rèn)為ImageNet是類似“Stanford10 ^ N”的。ImageNet在推動(dòng)物體識(shí)別到一個(gè)新的領(lǐng)域——深度學(xué)習(xí)階段起到了核心的作用。
截止到2015年5月1日,ImageNet數(shù)據(jù)庫(kù)擁有超過1500萬的圖像。
問題:有很多非常大的數(shù)據(jù)集,其圖像是從網(wǎng)上采集的,但是這些圖像通常都帶有自己的版權(quán)。版權(quán)阻止了圖像的收集和出售,所以從商業(yè)角度來看,當(dāng)產(chǎn)生這樣的數(shù)據(jù)集的時(shí)候,必須要小心一些。為了使現(xiàn)實(shí)世界中識(shí)別問題保持最先進(jìn)技術(shù),我們必須使用標(biāo)準(zhǔn)的大數(shù)據(jù)集(代表了能夠在現(xiàn)實(shí)網(wǎng)絡(luò)中找到的內(nèi)容),培養(yǎng)一種共享成果的社區(qū)意識(shí),并且維持?jǐn)?shù)據(jù)源的版權(quán)。