這篇文章主要講述一個正在演化的論題,主要解釋深度學(xué)習(xí)的基礎(chǔ),以及深度學(xué)習(xí)算法如何應(yīng)用于物聯(lián)網(wǎng)及智慧城市等。
本文作者Ajit Jaokar是futuretext的創(chuàng)始人。
這篇文章主要講述一個正在演化的論題。現(xiàn)在,我將主要解釋深度學(xué)習(xí)的基礎(chǔ),以及深度學(xué)習(xí)算法如何應(yīng)用于物聯(lián)網(wǎng)及智慧城市等。尤其是,像我接下來論述的一樣,我對于使用物聯(lián)網(wǎng)數(shù)據(jù)來完善深度學(xué)習(xí)算法很感興趣。我在物聯(lián)網(wǎng)數(shù)據(jù)科學(xué)課程項目中闡述過這些想法,這個課程的目的是培養(yǎng)物聯(lián)網(wǎng)數(shù)據(jù)科學(xué)家(與我在牛津大學(xué)和馬德里理工大學(xué)的課程類似)。我還會在上海同濟(jì)大學(xué)城市科學(xué)國際會議、舊金山物聯(lián)網(wǎng)大會(IoTworld event)上針對這些理論進(jìn)行論述。如果你希望獲得最新信息,請在我的 linkedin上聯(lián)系我。
深度學(xué)習(xí)
深度學(xué)習(xí)經(jīng)常會被認(rèn)為是模仿大腦的一系列算法。但更加精確的定義應(yīng)該是「利用神經(jīng)層進(jìn)行學(xué)習(xí)」的算法。深度學(xué)習(xí)涉及通過讓計算機(jī)從簡單概念之上建立起復(fù)雜概念的神經(jīng)層進(jìn)行學(xué)習(xí)。
深度學(xué)習(xí)逐漸從黑暗中摸索出了光明的道路,谷歌的研究員為他們的試驗性深度學(xué)習(xí)系統(tǒng)輸入了數(shù)千萬張來自于YouTube的隨機(jī)圖像,繼而指導(dǎo)系統(tǒng)去識別圖像的基本元素,以及如何將這些元素相互整合。這個有著16000個CPU的系統(tǒng)能夠識別出有著共同特點(diǎn)的圖像(例如貓咪的圖像)。谷歌權(quán)威性的實(shí)驗展示了深度學(xué)習(xí)的無限潛力。深度學(xué)習(xí)算法可以應(yīng)用在多種領(lǐng)域,包括計算機(jī)視覺、圖像識別、模式識別、語音識別以及行為識別等。
計算機(jī)如何學(xué)習(xí)?
為了理解深度學(xué)習(xí)算法的驚人之處,首先必須了解計算機(jī)如何思考和學(xué)習(xí)。從很早以來,研究員就嘗試過創(chuàng)造可以思考的計算機(jī)。直至最近,這種努力最近已經(jīng)成為了「自上而下」方法的規(guī)則。這種方法包括了為所有可能的情況寫出足夠的規(guī)則。但是此方法很明顯受限于規(guī)則的數(shù)量,以及其有限的規(guī)則依據(jù)。
為了克服這些限制,一個由下至上的方法被提出來。這種想法是從經(jīng)驗中學(xué)習(xí)。「標(biāo)識數(shù)據(jù)」提供這些經(jīng)驗。標(biāo)識數(shù)據(jù)輸入到系統(tǒng)中,系統(tǒng)基于回應(yīng)進(jìn)行訓(xùn)練。這種方法對過濾垃圾郵件這樣的應(yīng)用十分有效。然而,大部分?jǐn)?shù)據(jù)(圖像、視頻、語言等)并沒有標(biāo)識,即使有,也并不完善。
另一個問題是解決無限的問題域。例如,國際象棋的問題域非常復(fù)雜,但是有限,因為它有著有限的基元(32個棋子)以及有限的可采取步驟(在64個格子上)。但是在真實(shí)生活中,無論何時,我們都有著無限多的變量。問題域因此而變得非常大。
像國際象棋這樣的問題可以根據(jù)一系列形式化規(guī)則向電腦進(jìn)行描述。而反過來,許多真實(shí)世界的問題能夠被人們?nèi)菀椎乩斫?直覺)但是卻不是那么容易地向計算機(jī)表達(dá)。像這樣需要直覺的例子包括了在圖片上識別文字與臉。這樣的問題很難向計算機(jī)表達(dá),因為問題域是無限的。因此,問題描述承受著維度的詛咒——當(dāng)維度增加,空間的體積會增加得非常迅速,使可用的數(shù)據(jù)變得稀疏。計算機(jī)無法在稀疏數(shù)據(jù)中訓(xùn)練。這樣的情景很難描述,因為沒有足夠的數(shù)據(jù)去合適地表達(dá)由維度代表的組合。即使如此,這樣「無限的選擇」問題在日常生活中也很常見。
深度學(xué)習(xí)算法如何學(xué)習(xí)?
深度學(xué)習(xí)涉及「困難/直覺性」的高維度無規(guī)則問題。在此,系統(tǒng)必須在不知道規(guī)則的前提下學(xué)習(xí)去處理未預(yù)料的情況。許多現(xiàn)存的系統(tǒng)例如Siri的語音識別與Facebook的臉部識別就在這些宗旨下運(yùn)作。深度學(xué)習(xí)系統(tǒng)現(xiàn)在有著完善的可能,因為三個原因:高CPU配置,更好的算法,以及更多的數(shù)據(jù)。在接下去的許多年,這些因素會帶來深度學(xué)習(xí)算法更多的應(yīng)用。
深度學(xué)習(xí)算法基于大腦的運(yùn)作進(jìn)行模擬。大腦可能會被視為一種大規(guī)模并行模擬計算機(jī),有著 10^10個簡單處理器(神經(jīng)元)——每一個都只需要幾毫秒去對輸入進(jìn)行回應(yīng)。為了從理論上模擬大腦的運(yùn)行,每個神經(jīng)元都被設(shè)計為一個小型電子設(shè)備,有著與生物神經(jīng)元相似的傳輸功能。我們繼而可以連接這些神經(jīng)元,模擬大腦的運(yùn)作方式。從實(shí)踐上來說,這證明了這個模型并不是那么容易去完善,并且很難訓(xùn)練。
因此我們制作了一些模型的簡化版本。這類神經(jīng)網(wǎng)絡(luò)叫做「前饋反向傳播網(wǎng)絡(luò)」。簡化和限制在于:我們改變了神經(jīng)元之間的相連方式,這樣它們可以位于不同層。每層中的每個神經(jīng)元都與下一層的每個神經(jīng)元相連。信號只能在一個方向上傳播。最終,我們簡化了神經(jīng)元的設(shè)計,使其基于其他神經(jīng)元傳來的簡單、權(quán)重驅(qū)動的輸入做出反應(yīng)。這樣簡化的網(wǎng)絡(luò)(前饋神經(jīng)網(wǎng)絡(luò)模型)在更容易構(gòu)建和使用。