2015年,紐約西奈山醫(yī)院的研究團隊獲得靈感,將深度學習應(yīng)用到醫(yī)院中龐大的病例數(shù)據(jù)庫中。這個數(shù)據(jù)集中有攸關(guān)病人的數(shù)百個變量,包括測試結(jié)果以及醫(yī)生診斷等。由此產(chǎn)生的程序被研究人員命名為Deep Patient,它被利用70多萬名病人的數(shù)據(jù)訓練。但測試新的病例時,它展現(xiàn)出令人不可思議的能力——非常擅長預(yù)測疾玻無需專家指導(dǎo),Deep Patient可以在醫(yī)院數(shù)據(jù)中找出隱藏模式,并通過病人的各種癥狀確認疾病,包括肝癌。西奈山醫(yī)院團隊的項目領(lǐng)導(dǎo)者約珥·杜德利(Joel Dudley)說:“利用病例數(shù)據(jù),許多方法都能預(yù)測出疾病,但我們的方法更好用。”
與此同時,Deep Patient也讓人覺得有點兒困惑,它對于診斷精神疾?。ū热缇穹至寻Y)非常準確。但是眾所周知,即使是醫(yī)生也很難診斷精神分裂癥,為此杜德利想知道為何Deep Patient具備這樣的能力,但他未能找到答案,這種新工具未提供任何線索。如果像Deep Patient這樣的工具真能幫助醫(yī)生,在理想情況下,它應(yīng)該可以提供預(yù)測推理,以確保其結(jié)論的準確性。但杜德利說:“雖然我們可以建立模型,可是我們真的不知道它們是如何做出決定的。”
AI并非總是如此。從一開始,就有兩個學派就如何理解或解釋AI產(chǎn)生分歧。許多人認為,根據(jù)規(guī)則和邏輯開發(fā)的機器最有意義,因為它們的內(nèi)部運作是透明的,任何人都可以檢查它們的代碼。其他人則認為,如果機器能夠從生物學中獲得靈感,并通過觀察和體驗學習,更有可能出現(xiàn)智能。這意味著,計算機具備了編程能力。它們不再需要程序要輸入指令以解決問題,程序本身就可以基于示例數(shù)據(jù)和期望輸出產(chǎn)生算法。根據(jù)后一種模式,這種機器學習技術(shù)后來進化為今天最強大的AI系統(tǒng),機器本身就是程序。
最初,這種方法在實際使用中十分有限,20世紀60年代到70年代,它在很大程度上依然被限于“場地邊緣”。隨后,許多行業(yè)的計算機化和大數(shù)據(jù)集出現(xiàn)重新引發(fā)人們的興趣。這鼓勵更強大的機器學習技術(shù)誕生,特別是最新被稱為人工神經(jīng)網(wǎng)絡(luò)的技術(shù)。到20世紀90年代,神經(jīng)網(wǎng)絡(luò)已經(jīng)可以自動數(shù)字化手寫內(nèi)容。
但是直到2010年初,經(jīng)過幾次巧妙的調(diào)整和改進,更加龐大或更有深度的神經(jīng)網(wǎng)絡(luò)才在自動知覺方面有了巨大進步。深度學習是促使當今AI呈現(xiàn)爆發(fā)式增長的主要驅(qū)動力,它賦予計算機非凡的能力,比如像人那樣識別口語的能力,代替手動向機器輸入復(fù)雜代碼的能力等。深度學習已經(jīng)改變了計算機視覺,并大幅改進機器翻譯?,F(xiàn)在,它正被用于指導(dǎo)醫(yī)療、金融以及制造業(yè)等領(lǐng)域的各種關(guān)鍵決策。
與手動編碼系統(tǒng)相比,任何機器學習技術(shù)的運作本質(zhì)上都是不透明的,即使對于計算機科學家來說也是如此。這并非是說將來所有AI技術(shù)同樣不可預(yù)知,但就其本質(zhì)而言,深度學習是特別黑的“黑箱”。你無法透視深度神經(jīng)網(wǎng)絡(luò)內(nèi)部看其如何運行。網(wǎng)絡(luò)推理實際上是數(shù)以千計的模擬神經(jīng)元的共同行為,它們排列成數(shù)十甚至數(shù)百個錯綜復(fù)雜的互聯(lián)層中。第一層的每個神經(jīng)元都會接收輸入,就像圖片上的像素強度,然后進行運算,并輸出新的信號。這些輸出會進入更復(fù)雜的網(wǎng)絡(luò),即下一層的神經(jīng)元中。這樣一層層傳遞,直到最后產(chǎn)生整體輸出結(jié)果。此外,還有被稱為“反向傳播”的過程,通過調(diào)整單個神經(jīng)元的計算,讓網(wǎng)絡(luò)了解到需要產(chǎn)生的“期望輸出”。
圖:藝術(shù)家亞當·費里斯(Adam Ferriss)利用谷歌Deep Dream程序創(chuàng)造的圖像
深度網(wǎng)絡(luò)的多層結(jié)構(gòu)讓它能在不同的抽象層上識別事物,以被設(shè)計用于識別狗狗的系統(tǒng)為例,較低的層次可識別顏色或輪廓等簡單的東西,更高的層次則可識別更復(fù)雜的東西,比如皮毛或眼睛等,最頂層則會確定其對象是狗。同樣的方法也可被應(yīng)用到其他輸入方面,這些輸入可讓機器自學,包括演講中所用詞匯的發(fā)音、文本中形成句子的字母和單詞或駕駛所需的方向盤動作等。
為了捕捉和更詳細地解釋這些系統(tǒng)中到底發(fā)生了什么,研究人員使用了許多巧妙策略。2015年,谷歌研究人員修改了基于深度學習開發(fā)的圖片識別算法,它不需要在圖片中發(fā)現(xiàn)目標,而是生成目標或修改它們。通過有效地反向運行該算法,他們發(fā)現(xiàn)這種算法可被用于識別鳥或建筑物。