轉(zhuǎn)自 界面
12月中旬的一天,我出門去百度位于加州桑尼維爾的研究院采訪,當我對手機說出研究院地址,手機自動打開地圖為我導航……
對于用慣了智能手機的我們來說,這一切早已稀疏平常,但想起20年前在小學機房,我需要用費勁背下來的固定語句向Dos系統(tǒng)的電腦輸入指令,就為了打開個文檔,不得不感嘆這些年人和機器之間交流的方式發(fā)生了怎樣翻天覆地的變化——不用會寫代碼,甚至不用識字,用平時說話的方式就能操作智能設備。
為了實現(xiàn)和機器交流能夠像“和人聊天”一樣,背后是為數(shù)不多的一群科學家數(shù)十年沉浸于神經(jīng)網(wǎng)絡和深度學習領域的研究——這是一個曾不被學界認可的領域,研究人員也經(jīng)歷過數(shù)次受追捧和被冷藏的沉浮。
幾年前,谷歌等科技公司忽然意識到這個領域的價值,開始了重金爭奪這群為數(shù)不多的科學家,與此同時,這也讓越來越多的公司加入這場“軍備競賽”。
意外的是,百度作為一家中國公司卷入其中。作為一家中國公司在美國硅谷的研究院,百度位于加州桑尼維爾的研究院吸引了吳恩達(Adrew Ng)——深度學習研究領軍人物的加入,讓人大感意外,在此之后,他的學生,他的信徒也追隨其來到百度。
1.
百度的研究院所在地桑尼維爾并不是硅谷的核心地區(qū),一棟并不大的建筑里,沒有人有自己獨立的辦公室,大多數(shù)會面都在餐廳,吳恩達(Adrew Ng)在這個下午不時走到餐廳,像是安排了什么會面,因為他的加入,即便是美國媒體在談論深度學習時,也無法避開百度。
深度學習再一次受到關注與這些科技公司的“軍備賽”不無關系。2014年,谷歌花費4億美元收購人工智能初創(chuàng)公司DeepMind,而此前Facebook對這家公司也在猛烈追求;但Facebook并不肯示弱,在谷歌擁有Geoffrey Hinton這樣的研究巨擎時,它邀請到Hinton的親密隊友——紐約大學Yann LeCun建立實驗室;而百度,則邀請到了吳恩達建立自己的實驗室,他曾為谷歌建立了被外界稱為“谷歌大腦”項目,能夠在諸多圖片中識別出“貓”,成為谷歌最重要的研究成果之一,也是深度學習的里程碑。
Tesla的創(chuàng)始人Elon Musk最近的“參賽”更是讓人聞到了火藥味。這名超人式的硅谷企業(yè)家曾不止一次對外界表達對人工智能的負面思考,擔心人工智能未來會摧毀人類。而最近他表示,和Y Combinator的董事長Sam Altma一起出資10億美元建立非盈利性人工智能(AI)研究機構(gòu)Open AI,他表示,不希望人工智能在未來成為少數(shù)公司所獨有的資源。撇開這個機構(gòu)設立的目的,毫無疑問,它的出現(xiàn)會進一步加劇人才之間的爭奪。
即便深度學習現(xiàn)在是炙手可熱的領域,但幾年前還是一個冷門領域,少有博士生從事這個領域的研究,而在這幾年重新受人關注之后,專注于這一課題的博士生們大多還在學習過程中,因此人才極為稀缺。
“實際上這個領域有幾次寒冬”,當我問Adam Coates,百度硅谷AI實驗室主管,怎么看待上一次深度學習寒冬出現(xiàn)的原因時,他糾正我說,并不止一次,而是有很幾次。
如果僅僅是跟風一個熱門的領域,并不需要一個企業(yè)需要太多前瞻眼光,但在深度學習領域的投入多少是具有不確定性的,即便是在百度確立這個目標的兩三年前。
早在1960年代,深度學習的前身“神經(jīng)網(wǎng)絡”概念雛形就已經(jīng)出現(xiàn),轟動一時,關鍵詞是“訓練機器”,讓機器能夠識別物體。但由于這一理論迥異于傳統(tǒng)人工智能研究方法——那種能夠被數(shù)學計算證明的路徑,同時由于當時計算能力的局限,并未在應用領域顯示出自己的優(yōu)勢,最終在向政府爭取研究經(jīng)費時輸給了傳統(tǒng)派。到了1980年代末,神經(jīng)網(wǎng)絡重新被關注,《紐約時報》在頭版位置報道,好萊塢也以此博取眼球,阿諾德·施瓦辛格扮演的機器人終結(jié)者說:“我的CPU是一個神經(jīng)網(wǎng)絡處理器,一個會學習的計算機。”但1960年代景象最終重現(xiàn)——神經(jīng)網(wǎng)絡仍然沒能達到外界預期,而被學界冷落。
只有一小群人堅持了下來,包括現(xiàn)在加入谷歌的Geoffrey Hinton和為Facebook主持實驗室的LeCun一直堅持扎根于這一領域。
再次興起帶有偶然。2007年前后,計算機計算能力到達了一個新的節(jié)點,而Google等公司也收集了大量數(shù)據(jù),Hinton一個學生將Hinton的語音識別技術導入了Google系統(tǒng),旋即取得成功,這幾乎是讓Google嘗到甜頭的開端,此后幾年間,Google花了較大精力投入,包括邀請到吳恩達(Adrew Ng)和Hinton的加入。
“人工智能”這個詞近幾年幾乎被過度應用,投行、媒體或者是企業(yè)開始用“深度學習”代替“人工智能”,分析它的商業(yè)前景、變現(xiàn)能力。
“一些企業(yè)家又在承諾,過幾年之后深度學習又會帶來怎樣的愿景,毫無疑問這是過度宣傳。”下午3點,Adam百度餐廳旁會議室接受界面新聞記者采訪時說,“可能是因為我們身在其中做研究的緣故,我們更關注眼下人工智能和深度學習能夠做什么。”他希望此次這些人不要對這個領域帶來什么負面影響。
Adam是吳恩達(Adrew Ng)的學生,今年32歲,典型的美國大學里好學生的樣子,2014年跟隨吳恩達一起來到百度。
2.
2014年5月,吳恩達離開Google,甚至逐漸淡出自己的在線教育創(chuàng)業(yè)項目Cousera的管理,加入百度,主持這家中國公司的人工智能實驗室。
對于吳恩達加入百度的原因,并不乏媒體報道,大多訴諸于百度的“靈活性”,但這個理由似乎并不那么充分——至少在美國幾大科技公司中,谷歌是具有相當靈活性的,Hinton曾表示,微軟和IBM比谷歌都要先得到他的學生,但是在產(chǎn)品化上,谷歌比任何人都要快。
無論如何,吳恩達的到來為百度吸引到了最頂尖的科學家。Adam Coates在斯坦福大學師從吳恩達,研究進入博士后階段時,“我問他,做什么事情,在哪里做,能夠讓我們的研究在這個世界上能夠產(chǎn)生最大的影響力?他告訴我應該去百度。”
無論是吳恩達還是谷歌的Hinton或者是Facebook的Lecun,這樣學院派人物加入企業(yè)非常重要的一點是他能夠帶來自己門生和追隨者。
在百度工作一年半之后,在接受界面新聞采訪時,Adam同意了吳恩達當初的說法,他說百度讓人激動的是百度的這些產(chǎn)品是和十億級的用戶緊密地聯(lián)系在一起。
除此之外,這些頂尖的科學家愿意從大學實驗室來到互聯(lián)網(wǎng)公司的重要原因就是數(shù)據(jù)和計算能力。關于數(shù)據(jù)對于人工智能的重要性,谷歌創(chuàng)始人之一拉里佩奇和凱文·凱利之間的一段對話能夠作為例證:早在2002年,在接受凱文·凱利采訪時就表示,Google未來不是用人工智能改進搜索,人工智能未來是谷歌主營業(yè)務,谷歌將用搜索得到的數(shù)據(jù)來改進人工。而當2007年語音識別產(chǎn)品在谷歌偶然被Hinton的學生運行成功時,基于的卻是他若干年前的研究成果,“回顧往昔,缺乏的只是數(shù)據(jù)量和計算能力”,Hinton當時感嘆——彼時他經(jīng)歷了深度學習在學界數(shù)次沉浮。
百度也是依靠數(shù)據(jù)和計算能力吸引到諸多科學家,Adam Coates在接受采訪時不斷強調(diào)數(shù)據(jù)量和計算能力的重要性。Tony Han說吳恩達以及百度的數(shù)據(jù)量和計算能力是他加入的重要原因,原本在Missouri大學擔任副教授,受困于學校數(shù)據(jù)量和計算能力的限制,他給Andrew寫郵件爭取到了加入團隊的機會。
但無論如何,是百度在人工智能領域確立了目標,才有后來吳恩達和一系列科學家的加入。
徐偉原本是Facebook的一名科學家,在吳恩達到來之前加入了百度。Facebook的創(chuàng)始人扎克伯格對于辦公室布局有一個有趣的偏好,他會把一段時間內(nèi)他認為重要領域的同事安排在他附近的座位,這樣便于他隨時學習這個領域的知識,而徐偉在Facebook就是坐在扎克伯格附近的人。徐偉在學生階段學習的正是神經(jīng)網(wǎng)絡,在Facebook時也是利用神經(jīng)網(wǎng)絡解決這個社交網(wǎng)絡的圖片識別等問題,但這家公司在2013年年初時并沒有像Google和百度那樣確定地表示要在這一領域做研發(fā)投入,直到他加入百度半年后,F(xiàn)acebook才成立AI實驗室。
作為一個中國公司在美國的研究院,要招聘到頂尖當?shù)厝瞬挪⒎且资隆0俣裙韫妊芯吭?011年成立時,HR聯(lián)系硅谷當?shù)毓こ處煟S多人都擔憂是否該相信這樣一家中國公司,“他們看得到,許多中國公司來美國設立辦公室又撤走,招人又裁員”,鄭字斌是百度美國研究院總經(jīng)理,他清楚地看到這幾年的變化,他說,從2011年起整整兩三年的時間,百度主要是招中國工程師回國工作,這些人或許在Google這樣的公司工作了七八年時,事業(yè)到了一個平臺期,而回國進入百度能夠擔任管理職位,有些人因為家人在美國或者綠卡的原因,還需要往返中國美國,“美國研究院在當時就類似一個方便他們出差的小辦公室”。
一切都發(fā)生了變化,在吳恩達加入后。
3.
研究領域重要人物的移動意味著研究成果的跟隨,吳恩達的加入意味著百度在深度學習領域起步于他之前的成果。
吳恩達在谷歌曾被外界廣泛關注的成果就是機器在數(shù)百萬張Youtube視頻圖像認出了圖片中的貓。相比之前,這一“看圖說話”成果的重要性在于,它利用的是一種“無監(jiān)督學習”機制——研究人員之前并沒有給這些圖片標注過“貓”或者其它名稱,而機器在看了不計其數(shù)的“貓”之后,能夠斷定這屬于同一事物——它們表現(xiàn)出來的統(tǒng)計模式已經(jīng)具備了足夠的普遍性,從而可以將這些物體進行分類。
這對于一兩歲孩童是十分簡單的事情,卻是無數(shù)研究人員花費數(shù)十年試圖去教會機器的。就是這樣,對于有規(guī)則可循的事情,比如能夠用方程式所解釋的,機器能夠搞定人們窮盡一生都無法完成的計算量,但對于無法從數(shù)學計算規(guī)則解釋的事情,低齡兒童都能夠完成的事情對于機器來說就像是不可能的任務。
相比之前研究人員需要像機器展示無數(shù)標注有“貓”的圖片后,機器才能夠在看到一張沒有標注的圖片,認出“貓”,無監(jiān)督學習機制就像更接近人類某一種認知過程——小孩子在辨認貓時,并不一定要去看幾百萬張媽媽為他標記有“貓”的圖片,僅僅是學習到貓的樣子,在偶爾一次問到“這是什么”的時候,目前或是什么人告訴他們“這是貓”的時候,他們就學會了。無監(jiān)督學習就是這樣一種只需要在學習后期階段干預,甚至是不需要干預的機制。
而之后一個重要的進展在于能夠同時識別不同的物體,甚至是物體特殊部分,然后可以用自然語言做出描述。
百度在此之上的一個重要進展就是可以對機器用復雜的自然語言提問:“除了人之外,草坪上還有什么”或者是“那個人手里拿著什么”,機器能夠正確回答草坪上“還有狗”或者是“手里拿著桔子”。
不僅僅是圖像識別,語音領域同樣如此。就在Adam接受我采訪的當天,百度發(fā)布了新的深度語音產(chǎn)品,在這背后是一條全新的語音識別路徑,“語音識別過去是由很多部分組成的,讓許多部分一起工作,最后要得到較為精確的語義傳送是很難的,而我們是用的另外一條路徑,由深度學習來代替既往那種許多細小的部分,最后的結(jié)果是更為精確的。”
“我們做中文實際上是從今年2月份開始做的,到今年8、9月份的時候我們已經(jīng)超過國內(nèi)語音的識別率了。”Tony Han是語音團隊里僅有的華裔工程師之一,鑒于中文語言特殊性,他是參與了中文版本建設,“百度內(nèi)部使用的最好中文語音識別系統(tǒng)錯誤率是7.7%,我們當時打算超過優(yōu)于這個系統(tǒng)10%的時候就上線,也就是錯誤率6.8%,但是我們六個月的時間把它推到5.7%了。”
但他們希望不斷提高正確率。在語音識別中細小的準確率之間的差別,在具體使用中卻會有很大的差別。95%的精確度意味著每20個字里就有一個錯別字,相當于每次在手機上使用語音識別時都不得不回過頭來糾正錯別字,而99%則完全不同,語音識別就已經(jīng)達到可靠的程度,就會一直使用,這4%的差別并不僅僅是4%的漸進改善,在用戶層面幾乎是一直用和幾乎不用的天壤之別。
Tony Han指出,百度語音識別利用的“端到端”的路徑是一個適用性較強的基礎框架,在這個框架之下,只需要稍作改動,就可以運行另一個語言的版本,這也是他們能夠在6個月推出中文版的原因。
“去年我們的那個版本在英語環(huán)境下運行得很好,而新版本在兩個語言環(huán)境下都能夠順利運行。”Adam向我介紹說。撇開這種說明書式的描述,將它與Siri相比,能夠明顯地比較出優(yōu)勢。Siri無法同時支持中英文的——比如在我的iPhone使用英文系統(tǒng)時,Siri能夠聽懂我的英文指令,當我要求它給我通訊錄里某個人打電話,如果這個人人名是中文名字時,它就無法識別,除非你重新設定系統(tǒng)的語言。
“機器對自然語言的識別,用你平時說話的方式交流,它就能夠明白你要做什么,這對我來說是相當激動的,完全改變了我們和設備的交流方式。”Adam說。但大多數(shù)我們并不能為這種學術性的描述以及幾個百分點的進步而激動,但如果試圖想象當無人駕駛汽車在路上運行或者是機器人提供服務,需要對諸多意外狀況做出自主自動的反應,就能理解這些細小進步的意義。
4.
這種人和機器交流方式的改變對于中國有特殊的意義。
百度最近關于深度學習產(chǎn)品化的一個重要方向就是在O2O產(chǎn)品中植入美國研究院的語言識別成果,“我認為人工智能和O2O就是為彼此而生的,O2O正是把互聯(lián)網(wǎng)的技術應用于線下的真實世界,為了提升O2O服務質(zhì)量,電腦就需要理解人們在真實世界的那些行為,比如人們交談的方式。”Adam為自己研究成果進入中國這樣一個十億級市場感到興奮。
這樣一個十億級市場規(guī)模也意味著用戶受教育程度參差不齊。吳恩達在一次采訪中指出,人工智能能夠讓中國非受教育用戶群體便捷地使用智能設備——毫無疑問,這是前端科學民主的一面。
當Elon Musk等人表達對人工智能未來毀滅性的一面的擔憂時,這些身在其中的科學家想的是如何更好地教育機器,讓機器能夠更聰明的和人交流。“我認為人們說的人工智能將擁有和人腦同樣的能力的說法,現(xiàn)在是不可能的,我也沒有看到在可預見的將來有創(chuàng)造這種東西的可能性。”Adam。
“長大過程中,我一直在看《變形金剛》,卡車汽車突然變成了機器人,我每天鉆進汽車的時候,并沒有擔心它會突然變成機器人”。
如果說這些科學家們有什么擔憂的,就是如何在公司事務中爭取更多的科研時間。百度美國研究院扮演的是技術平臺的角色,讓百度其它工程師基于這個平臺上開發(fā)出其它產(chǎn)品,“工作里,有相當一部分時間會花在怎么去讓我們這個系統(tǒng)更好地支持百度各種各樣的產(chǎn)品。”徐偉說,他更大的興趣是在科研上,但直到今年才有了更多時間在科研上。
學界領軍人物都進入了公司,外界層擔心這會影響科研的進度。但從目前來看,Geoffrey Hinton仍然在多倫多大學任教,除了偶爾會來谷歌硅谷的總部,大多數(shù)時候只是在這家公司位于多倫多的辦公室;Lecun仍然在紐約大學任教,F(xiàn)acebook把實驗室總部設在了紐約。
一線的科研人員在有錢有數(shù)據(jù)的公司中生存,而不是依賴于以往的政府研究基金,除去為企業(yè)牟利的一面,如果你想到以往的貝爾實驗室,毫無疑問這有它積極的一面。