百度首席科學(xué)家吳恩達在今天百家BIG TALK硅谷活動上提到,從優(yōu)秀產(chǎn)品到大量用戶,再到海量數(shù)據(jù),最后返回優(yōu)秀產(chǎn)品是一個良性循環(huán),但最后一個環(huán)節(jié)“海量數(shù)據(jù)到優(yōu)秀產(chǎn)品”會出現(xiàn)問題,因為當(dāng)數(shù)據(jù)積累過多時,就無法對這些數(shù)據(jù)進行完整和準(zhǔn)確的處理,從而也無法為優(yōu)秀產(chǎn)品的后續(xù)更新提供參考。直到深度學(xué)習(xí)出現(xiàn)才改善了這種局面,他把數(shù)據(jù)比作火箭的燃料,把深度學(xué)習(xí)比作發(fā)動機,是深度學(xué)習(xí)將數(shù)據(jù)這種燃料點燃從而將人工智能推到另外一個高度。而值得一提的是,在今天BIG TALK以及其他活動的演講中,各領(lǐng)域?qū)<叶贾苯踊蜷g接的提到了深度學(xué)習(xí)。所以,我大膽的得出一個結(jié)論,深度學(xué)習(xí)不僅是人工智能的發(fā)動機,更是其他眾多領(lǐng)域、甚至是整個社會科技進步的動力。
1、 深度學(xué)習(xí)的定義
傳統(tǒng)人工智能的機器學(xué)習(xí)是通過標(biāo)記數(shù)據(jù)進行有監(jiān)督學(xué)習(xí),隨著其所需處理數(shù)據(jù)量的增大,外界對其的支持和幫助也就更大,而且計算結(jié)果的準(zhǔn)確性也會受到影響。因此,對于這種傳統(tǒng)算法,越來越多的數(shù)據(jù)將成為負擔(dān),也更容易達到極限或產(chǎn)生錯誤結(jié)果。但深度學(xué)習(xí)是從未經(jīng)標(biāo)記的數(shù)據(jù)展開學(xué)習(xí),這更接近人腦的學(xué)習(xí)方式,可以通過訓(xùn)練之后自行掌握概念。面對海量數(shù)據(jù),深度學(xué)習(xí)算法可以做到傳統(tǒng)人工智能算法無法做到的事情,而且輸出結(jié)果會隨著數(shù)據(jù)處理量的增大而更加準(zhǔn)確。這將大幅度提高計算機處理信息的效率。同時,深度學(xué)習(xí)在加速回歸定律的指引下會使得進化過程中產(chǎn)物(輸出結(jié)果)獲得指數(shù)級增長,當(dāng)深度學(xué)習(xí)的效率變得更高,就會吸引更多的資源向它聚合,使其發(fā)展更為迅速。王威廉在《國際機器學(xué)習(xí)大會ICML2013參會感想》提到:“用半監(jiān)督或無監(jiān)督學(xué)習(xí)方法挖掘無標(biāo)簽的數(shù)據(jù),不僅是過去10年,還很可能是大數(shù)據(jù)時代的一個熱點。
回到“海量數(shù)據(jù)到優(yōu)秀產(chǎn)品”這一環(huán)節(jié),這些數(shù)據(jù)處理效率的指數(shù)級增長其實是來源于我們對互聯(lián)網(wǎng)產(chǎn)品的每一次微小的使用以及相應(yīng)的每次數(shù)據(jù)的貢獻,而這些匯集起來的數(shù)據(jù)再借助深度學(xué)習(xí)算法就會為會我們輸出更加準(zhǔn)確的結(jié)果,提供更好的服務(wù),其產(chǎn)生的效果也會像滾雪球一樣越來越大。這就是吳恩達在今天的講座中提到的深度學(xué)習(xí)所促成的完整流程,也是他之前提到的人工智能正循環(huán)。
而深度學(xué)習(xí)帶來的正循環(huán)不僅體現(xiàn)在人工智能領(lǐng)域,還體現(xiàn)在機器人技術(shù)、信息化醫(yī)療、社會物理學(xué)和能源問題等領(lǐng)域。
2、 深度學(xué)習(xí)對大數(shù)據(jù)的價值
如吳恩達所言,數(shù)據(jù)是人工智能的燃料。隨著各個行業(yè)信息化程度的普及,任何行業(yè)所積累的數(shù)據(jù)會越來越多,但當(dāng)真正面對海量數(shù)據(jù)時,各行業(yè)才意識到數(shù)據(jù)處理能力遠遠不夠。在今天上午參觀百度美國研究院時,百度高級技術(shù)總監(jiān)呂厚昌提到了深度學(xué)習(xí)對大數(shù)據(jù)的重要性,他認為,此前在數(shù)據(jù)的數(shù)量和效率之間存在矛盾,收集更多的數(shù)據(jù)有助于提高最終結(jié)果的準(zhǔn)確性,但數(shù)據(jù)越多,處理起來就越慢。當(dāng)沒有足夠高效的處理工具時,大數(shù)據(jù)就變成了數(shù)據(jù)墳?zāi)?,即使這些數(shù)據(jù)再大,也無法提取出任何價值,因為沒辦法對其進行高效處理,這也違背了我們收集數(shù)據(jù)的初衷。
深度學(xué)習(xí)的出現(xiàn)就是解決了如何快速處理海量數(shù)據(jù)的問題,拿百度舉例,呂厚昌說,百度的數(shù)據(jù)處理自上而下分成開放云、數(shù)據(jù)工廠和百度大腦三個層級,最底層的開放云收集數(shù)據(jù),數(shù)據(jù)工廠對數(shù)據(jù)庫進行管理,最上層百度大腦的模擬神經(jīng)網(wǎng)絡(luò)通過機器學(xué)習(xí)高效的輸出結(jié)果,從而實現(xiàn)行業(yè)應(yīng)用。深度學(xué)習(xí)就是在最后一個環(huán)節(jié)體現(xiàn)出巨大價值,帶來更好的信息處理能力,從而產(chǎn)生更加廣泛和深入的行業(yè)應(yīng)用,比如百度大數(shù)據(jù)此前在醫(yī)療、交通和金融領(lǐng)域的應(yīng)用。
此外,MIT人類動力實驗室主任Alex Pentland的社會物理學(xué)就是基于大數(shù)據(jù)對人類的各種社會行為進行分析,從而得出結(jié)論并提供決策依據(jù);伯克利大學(xué)能源專家Daniel Kammen也是基于大數(shù)據(jù)來解決氣候變遷這個宏大的人類課題。這兩個領(lǐng)域都需要有海量數(shù)據(jù)支撐,因此,擁有高效、良性處理能力的深度學(xué)習(xí)技術(shù)就顯得尤為重要。