當Google宣布 Ray Kurzweil 要加盟該公司時,許多人都在揣摩為什么這么一位現(xiàn)象級的成功創(chuàng)業(yè)家、未來學家愿意屈身一家不是自己創(chuàng)辦的大公司?
Kurzweil的答案是:只有Google才能提供他實現(xiàn)畢生工作所需的計算和工程資源。從14歲開始,這位現(xiàn)年65歲的發(fā)明家就一直致力于創(chuàng)造真正的人工智能,他甚至預測到2029年機器就可以與人類智能匹敵。
作為Google的工程總監(jiān),他主要關(guān)注于讓計算機能真正理解甚至講自然語言。他希望最終能創(chuàng)造一個在你開始做之前就知道你想要什么的“電子朋友”。
從競爭的角度來看,Kurzweil的關(guān)注也是適時的。今年的4月29日,語音搜索應用Google Now正式登錄iOS平臺向蘋果的Siri發(fā)起面對面的挑戰(zhàn)。Facebook最近又披露已經(jīng)為其Graph Search增加了一個自然語言接口。很顯然,搜索已經(jīng)開始走出原始的查詢“石器時代”。
在接受福布斯雜志撰稿人Robert Hof的專訪中,Kurzweil詳談了自己在Google的計劃。
Q:你在《How to Create a Mind》中闡述了大腦的工作原理。能否簡要解釋一下?
A:這個世界是層次化的。唯有哺乳動物擁有新皮質(zhì),進化的新皮質(zhì)可以讓我們更好地理解世界的結(jié)構(gòu),以便我們更好地根據(jù)需要改造世界、解決問題。我們的思考是層次化的。人類的第一項發(fā)明是語言,語言就是層次化的。
我把深度學習背后的理論稱為分層學習,即用一個模型映射待學習的自然現(xiàn)象的層次。如果不做這件事情,搜索就會弱很多,容易為表面上的歧義所愚弄。
Q:你打算如何將這一理論運用到Google上?
A:找出專門針對自然語言理解的層次化方法,分析出語義,開發(fā)表示語義內(nèi)容并對其建模的手段,以便更好地搜索和回答問題。
Google查詢中以問題形式提供的比例越來越高?,F(xiàn)在的問題尚無法擁有無限復雜性。但是,如果我們可以以層次化的方式對語言建模,通過對數(shù)十億的網(wǎng)頁試圖表達的東西建模,那么搜索和回答問題就能做得更好。
Q:Google或者誰還沒有做完這件事情?
A:有一些科研項目在做此嘗試,但是還沒有人開發(fā)出一整套完整的解決方案。IBM的Watson在理解語義語言方面的工作的確令人印象深刻,證明了此事的可行性。Watson的知識不是靠手工編碼獲取的。記下來的常識性知識是脆弱的,因為它不足以反映出語言和常識性知識的模糊性。
Watson的做法更加聰明。它通過閱讀維基百科等百科全書來獲取知識,然后去玩游戲而不是做狹隘的任務。這已經(jīng)相當于回答問題。
Q:你為什么要到Google來?
A:這個問題我也想了很久。實際上這是我第一次為一家不是我創(chuàng)辦的公司工作。我也并不認為自己還有別的地方可去。過去幾年我有機會跟Larry Page在若干項目上合作。我們就人工智能這個話題展開了一系列的討論。這里面的一些技術(shù)采用了學習算法,雖然不是很深,但是得益于Google的海量數(shù)據(jù)而展現(xiàn)出巨大的威力。我們一致認為,Google級的數(shù)據(jù)以及計算基礎設施是創(chuàng)造出更強大的人工智能必不可少的要素。
去年7月,我跟Larry會面討論我的那本書。當時我說自己有意做一個項目,或者開一家公司來實現(xiàn)書中的想法。他馬上提出我應該考慮到Google做這件事,如上所述,因為Google的數(shù)據(jù)和設施是實現(xiàn)的要素。誠如Larry所言,一家獨立公司是很難實施此事的。我一下子就被說服了。
Q:但是有些人對此還是感到驚訝,你做創(chuàng)業(yè)家都這么多年了,現(xiàn)在卻變成了一名員工。
A:這是一個制造影響的機會。我之所以成為發(fā)明家也源于此。為盲人發(fā)明的閱讀機取得了一些科學突破,但是真正令我滿意的是成千上萬的盲人說這件東西幫助他們獲得了工作和受到教育。有10億人在用Google。如果我能對此作出貢獻,那么在幫助人方面就能產(chǎn)生巨大影響。
這可不是什么小項目。而是我對人工智能50年研究的頂點。我一直考慮致力于終極挑戰(zhàn),在我看來這項終極挑戰(zhàn)就是真正理解自然語言并對其建模,然后用于實踐。
Q:為什么理解語言是終極挑戰(zhàn)?
A:阿蘭•圖靈的圖靈測試完全是基于書面語言的?;旧峡杀灰暈榧磿r通信游戲。哪怕在書寫形式上令人信服地真正掌握自然語言(圖靈測試的關(guān)鍵)也要求全部領域的人類智能。僅僅玩弄一些語言處理的雕蟲小技是不夠的。是有一些聊天機器人可以欺騙一些人幾分鐘,但是要想通過圖靈測試是不行的。
可見自然語言是一個對人工智能意義重大的領域。在這里做這個項目的確是在任何其他地方所無法比擬的?,F(xiàn)在,我已經(jīng)在這里待了2個月,我可以看出Larry忠告的智慧所在。
Q:為何如此?Google其他什么東西能助你實現(xiàn)目標?
A:比方說知識圖譜。要想理解自然語言,就得理解概念和世界上的事物,包括抽象事物和具體事物。姿勢圖譜現(xiàn)在已經(jīng)有7億條目,其間的鏈接有幾十億,而且現(xiàn)在還在迅速增長。我是沒有辦法創(chuàng)造這樣的東西的。知識圖譜絕對是我即將要用的東西。因為如果你要對語言表達的東西建模,就得鏈接到所有概念的知識庫,這里面已經(jīng)有許多關(guān)系存在了。此外還有很多其他的技術(shù),如句法分析,不過在Google之外你是看不到這些技術(shù)的。
Q:你的書里面有一章描述了利用軟硬件創(chuàng)造想法的步驟。你去Google是不是想干這個?至少最后想干?
A:我透露了大方向。我有專利創(chuàng)意但是顯然我不會在書中披露,比方說層次如何建立?書里面沒談。關(guān)鍵是那種層次結(jié)構(gòu)并非與生俱來的。我們生來伴隨左右的是不不關(guān)聯(lián)的模塊,內(nèi)在沒有任何模式,然后我們甚至在出生之前開始學習了,因為我們的眼睛大概在26周就打開了,然后我們開始傾聽聲音。
關(guān)鍵的一點是新皮質(zhì)創(chuàng)建了這種層次,根據(jù)自己的經(jīng)驗為這些模塊與更高層模塊建立連接關(guān)系。要想達到一定水平的表現(xiàn)我們需要花上數(shù)年甚至數(shù)十年的時間。因此,哪怕你在創(chuàng)造新皮質(zhì)方面干得漂亮,如果沒有學習體驗也不能成事。因此,創(chuàng)造AI的很多工作都是落在創(chuàng)造學習體驗上。
Q:你打算如何做這件事情?
A:對于如何通過模擬新皮質(zhì)要接觸到的數(shù)據(jù)來建立那種層次我已經(jīng)有了想法。我現(xiàn)在做的就是這件事。Larry對這本書非常興奮,并給予了AI高優(yōu)先權(quán)。所以我也有足夠的獨立性。
盡管Watson擊敗了兩位人類玩家,但是它是靠規(guī)模取勝的,因為它可以翻看2億頁的知識。你我都讀不完100萬頁的內(nèi)容。所以其想法是析取足夠多的語義,哪怕我們沒有辦法像人那樣析取那么多,但是可靠量取勝,析取每個一網(wǎng)頁、每一頁書的語義,然后讓搜索更出色。這是搜索和知識導航發(fā)展的大方向。
Q:從何開始?做這件事情之前還有哪些類型的挑戰(zhàn)需要克服?
A:如何對語義建模我已經(jīng)有了想法。此為挑戰(zhàn)一。說到語音識別,從概念上來講,將語音信號轉(zhuǎn)換為輸出是很容易的:就是對某人所說的轉(zhuǎn)錄。然后我可以進行一項艱苦的工作,建立一個百萬級的說話方式和正確翻譯庫。這是個大項目,但是并非不能做。然后還得有一些學習算法。我們用的是層次學習方法。這樣你就可以根據(jù)經(jīng)驗學習了。
描述語音表達的正確翻譯只是第一步,用自然語言理解來描述實際上也是非常困難的。如何才能表達語言的正確意思?哪怕大家說的話有很多歧義這一點忽略不計,你又如何才能描述它呢?我有個想法,就是用圖形化的方式來表示語言的語義。雖然這種辦法不能完全捕捉到語言的每一個微妙之處,但是現(xiàn)在計算機程序并不會捕捉所有的語義。
然后,我的構(gòu)思是建立一種語音識別的數(shù)據(jù)庫。很容易就可以獲取大量的文本樣本,維基百科上面就有數(shù)百萬的網(wǎng)頁。不過然后我就想到要建立一個正確翻譯的數(shù)據(jù)庫,用于表示語義的方法中。一旦有了一個新句子,也許是一個用戶輸入的問題,或者每分鐘都會冒出來的一些新網(wǎng)頁,它都能對自己的翻譯進行校正。
Q:你和你的團隊會跟Google其他AI相關(guān)的團隊一起工作嗎?
A:我的團隊已經(jīng)部分組建好了,有些是內(nèi)部調(diào)動過來的,有的則是外面招來的。我可以充分利用這里的其他資源。比方說,我們需要充實知識圖譜來合并范圍更廣的一組關(guān)系。用語言來表示各種你想要表達的的關(guān)系是不夠全面的。所以自然語言理解方面我們要做的一件事情是跟知識圖譜團隊合作,擴展知識圖譜,然后合并更多的關(guān)系。
Q:那么最后你的目標是不是要創(chuàng)造一個人工智能,某種能夠通過圖靈測試及其所涉及的一切的東西,或者是要用這些技術(shù)來改善人類大腦?或者甚至這兩者兼顧?
A:如果你討論的是我的職業(yè),我首先是一個發(fā)明家,永遠都是。我步入未來主義是為了成為一名發(fā)明家。時機至關(guān)重要,你叫得出名字的發(fā)明家都把握住了時機。Larry和Sergey對想到了一個偉大的創(chuàng)意,對互聯(lián)網(wǎng)鏈接進行逆向工程,從而開發(fā)出更好的搜索引擎。如果這件事情他們做得早一點或者晚一點,也許你們就記不住他們的大名了。這就像雙向飛碟一樣?;叵?、4年前,大多數(shù)人都還沒有用社交網(wǎng)絡、維基或者博客。再倒退10幾年前,大多數(shù)人都還不會用搜索引擎。
我個人的動機并不是要創(chuàng)造一款能通過圖靈測試的計算機。我的個人目標是做近期能做出貢獻的工作。自然語言理解并不是在某個的點上完成目標,僅僅是搜索而已。這不是一個我能夠完成的項目。
Q:深度學習和神經(jīng)網(wǎng)絡會如何改變計算機的性質(zhì)?
A:馮諾依曼體系計算機的實際結(jié)構(gòu)跟大腦的組織是相當不一樣的。計算機只是一定程度的并行??墒谴竽X中的100萬億髓棘間骨連接每一個都是并發(fā)計算的。所以說這是非常大規(guī)模的并行計算。不過這些計算非常慢,相當于每秒鐘100次運算。這些計算本身沒有一項是關(guān)鍵性的,而是按照概率來組織的。計算機不是這樣的。
超級計算機已經(jīng)要比完全模擬大腦所需的計算量要快了—不過不是在分子水平的模擬,而是功能模擬。這是一個重要的區(qū)別。然后Henry Markram還有一個獲得10億歐元資助的藍色大腦項目。美國還有一個復制版的Brain Activity Map。那個就是分子級的模擬了。
Q:這么說你不認為那是一個可行的辦法?
A:呃,這是一個偉大的項目,但那不是創(chuàng)造人工智能的正確方法,只能用來測試我們對大腦工作方式的想法是否準確。這是了解大腦的一個好辦法,可以知道神經(jīng)是如何工作的,離子通道是如何工作的,并對大腦進行大規(guī)模的仿真,看看功能是否正確。這的確是研究大腦的一種辦法,然后我們可以掌握一些辦法,再運用這些仿生算法來創(chuàng)造人工智能。
Q:還有哪些東西決定真正的人工智能何時能實現(xiàn)?
A:有一條加速回報定律。按照信息技術(shù)的發(fā)展方式,我們總是用今天的技術(shù)來創(chuàng)造明天的。軟件也是如此。一旦我們有了一個在用的系統(tǒng),就可以對它進行改進,而這種改進往往是多發(fā)性而非線性的。同樣的技術(shù)可以讓我們窺探大腦—大腦掃描的空間分辨率正在呈指數(shù)增長。然后我們就可以利用對大腦是如何做事的研究設計出仿生算法來更好地為人工智能服務。