“機(jī)器學(xué)習(xí)模型依靠左右互搏,可以迅速達(dá)到很高的智能水準(zhǔn)。”(說(shuō)他們智商低,是因?yàn)檫@一點(diǎn)他們真信了。)
“人工智能毀滅人類的奇點(diǎn)即將來(lái)到!”(我認(rèn)為機(jī)器早就能毀滅人類了,不過(guò)這跟人工智能并沒(méi)有關(guān)系。)
“只有人工智能才能拯救人類!”(潛臺(tái)詞是:只有我這樣人工智能的使者才能拯救你們?。?/p>
“我們的產(chǎn)品融合了大數(shù)據(jù)和人工智能技術(shù)。”(其實(shí)多數(shù)情況下不過(guò)是用hadoop跑了個(gè)腳本。)
作為一個(gè)知識(shí)分子,我是不太擅長(zhǎng)罵人的。咱們還是先講講道理,看看深度學(xué)習(xí)到底解決了什么,還有哪些挑戰(zhàn)。
實(shí)際上,到今天為止,無(wú)論什么樣的機(jī)器學(xué)習(xí),本質(zhì)上都是在統(tǒng)計(jì)數(shù)據(jù),從中歸納出模型。實(shí)際上,很早以前大家就認(rèn)識(shí)到,深層的神經(jīng)網(wǎng)絡(luò)比起淺層的模型,在參數(shù)數(shù)量相同的情形下,深層模型具有更強(qiáng)的表達(dá)能力。這個(gè)概念說(shuō)起來(lái)也好理解:用同樣的面積的鐵皮,做個(gè)桶比做個(gè)盤子盛的水要多一些。對(duì)此,馬三立大師早有論述:碗比盤深,盆比碗深,缸比盆深,最淺的是碟子,最深的是缸。而盤子或桶里的水,則類比于模型可以接納并總結(jié)的數(shù)據(jù):太淺層的模型,其實(shí)很容易自滿,即使有大量的數(shù)據(jù)灌進(jìn)去,也并沒(méi)有什么卵用。
既然很早就知道深層模型的表達(dá)能力更強(qiáng),那么為什么近年來(lái)深度學(xué)習(xí)才大放異彩呢?那是因?yàn)橥半m然盛水多,我們以前卻沒(méi)有掌握將它高效率地灌滿的辦法。也就是說(shuō),以前對(duì)深度神經(jīng)網(wǎng)絡(luò),沒(méi)有太有效的工程優(yōu)化方法。
一個(gè)大桶擺在那兒,卻只能用耳挖勺一勺勺往里灌水,多怎才能灌滿啊?直到本世紀(jì),Geoffrey Hilton和他的學(xué)生發(fā)明了用GPU來(lái)優(yōu)化深度神經(jīng)網(wǎng)絡(luò)的工程方法,這就好比灌水時(shí)發(fā)明了水管,極大地提高了效率。這樣的工程方法產(chǎn)生后,深度神經(jīng)網(wǎng)絡(luò)才變成工業(yè)界實(shí)用的武器,并且在若干領(lǐng)域都帶來(lái)了里程碑式的變化。
桶有了,水管也有了,還缺什么呢?當(dāng)然就是水了。對(duì)深度學(xué)習(xí)模型而言,水就是海量的數(shù)據(jù)。比方說(shuō)原來(lái)用淺層的模型做人臉識(shí)別,訓(xùn)練樣本到了一定的規(guī)模,再多就沒(méi)有用了,因?yàn)楸P子已經(jīng)灌滿了,再灌就盛不了了。
可是,改用深度學(xué)習(xí),再加上有了水管以后,數(shù)據(jù)一直往里面灌,模型還是可以繼續(xù)學(xué)習(xí)和提高。就拿機(jī)器識(shí)別物體這樣的任務(wù)來(lái)說(shuō),通過(guò)數(shù)百萬(wàn)副圖片的訓(xùn)練,深度學(xué)習(xí)模型甚至可以超過(guò)人的肉眼的識(shí)別能力,這確實(shí)是人工智能在感知類問(wèn)題上重要的里程碑。
然而,上面的例子提醒我們:人工智能和人的智能,還真的不是一回事。幾歲的小孩子,大人給他指過(guò)一次貓,下次他十有八九就能認(rèn)出來(lái)。然而不論是多強(qiáng)的人工智能模型,也不可能看幾張貓的圖片,就能準(zhǔn)確地認(rèn)識(shí)貓。也就是說(shuō),深度神經(jīng)網(wǎng)絡(luò)的“智能”,是建立在海量數(shù)據(jù)基礎(chǔ)之上的,因此,深度學(xué)習(xí)與大數(shù)據(jù),有著非常緊密的內(nèi)在聯(lián)系。
關(guān)于深度學(xué)習(xí),還有一個(gè)有趣的現(xiàn)象。就目前情況來(lái)看,深度學(xué)習(xí)技術(shù)在互聯(lián)網(wǎng)應(yīng)用(例如廣告、推薦等)上取得的提高,沒(méi)有語(yǔ)音圖像這些領(lǐng)域那樣顯著。這里面有什么規(guī)律性的解釋么?
個(gè)人認(rèn)為,自然現(xiàn)象的數(shù)據(jù)處理,例如語(yǔ)音識(shí)別,我們完全可以通過(guò)主動(dòng)的語(yǔ)料采集,讓各個(gè)phoneme甚至biphone、triphone都挺有充分的覆蓋;而互聯(lián)網(wǎng)收集的社會(huì)行為,例如廣告點(diǎn)擊、新聞閱讀這些數(shù)據(jù),Ground truth并不清晰:即使對(duì)于同一個(gè)人、同一則廣告、同一個(gè)廣告位,點(diǎn)擊與否也是個(gè)很不確定的事件,而這樣的不確定性即使引入再多的上下文信息,也不可能消除。
而引入了大量的上下文信息(即模型需要的feature)后,在每個(gè)片段上的數(shù)據(jù)實(shí)際上非常稀少,并不能滿足深度學(xué)習(xí)模型徹底進(jìn)化的需要。怎么解決這個(gè)問(wèn)題呢?最近爆火的Alphago采用的deep reinforcement learning方法論,或有是個(gè)啟發(fā)。