去年11月發(fā)布的智能回復(fù)功能取得了巨大成功,Gmail
Inbox應(yīng)用的用戶現(xiàn)在可以直接從系統(tǒng)提供的三條備選內(nèi)容中選擇一條,輕輕碰觸即可進(jìn)行回復(fù)。由于系統(tǒng)提供的回復(fù)內(nèi)容非常切題,用戶經(jīng)常感到不可思議。在通過該應(yīng)用發(fā)送的回復(fù)信息中,有1/10都是由機(jī)器學(xué)習(xí)系統(tǒng)生成的??祭嘈χf:“這個(gè)項(xiàng)目能夠成功還是令我感到有些驚訝。”
小心求證 困難重重
在谷歌證明機(jī)器學(xué)習(xí)高效性的實(shí)例組成的稠密圖(dense
graph)中,自動(dòng)回復(fù)只是其中的一個(gè)數(shù)據(jù)點(diǎn)。但是當(dāng)機(jī)器學(xué)習(xí)成為搜索業(yè)務(wù)的重要組成部分的時(shí)候,或許轉(zhuǎn)折點(diǎn)才會(huì)最終到來。作為谷歌的旗艦產(chǎn)品,搜索幾乎為該公司貢獻(xiàn)了所有營(yíng)收。在某種程度上說,搜索總是基于人工智能系統(tǒng)。但多年以來,由于搜索引擎對(duì)谷歌過于重要,所以始終沒有融入機(jī)器學(xué)習(xí)算法。迦南德里說:“由于搜索在公司內(nèi)部占據(jù)的份額巨大,高級(jí)管理者深度參與其中,所以很多人都懷疑我們無法真正取得進(jìn)展。”
這部分阻力源自文化因素,因?yàn)楣雀鑿?qiáng)調(diào)要讓那些有極強(qiáng)控制欲的程序員適應(yīng)帶有禪宗韻味的機(jī)器學(xué)習(xí)模式。長(zhǎng)期掌管谷歌搜索業(yè)務(wù)的阿密特·辛格(Amit Singhal)曾是傳奇計(jì)算機(jī)科學(xué)家杰拉德·薩爾頓(Gerald
Salton)的助手。薩爾頓在文檔檢索方面的開創(chuàng)性工作啟迪辛格幫助謝爾蓋·布林(Sergey Brin)和拉里·佩奇(Larry
Page)把研究生時(shí)期編寫的代碼,擴(kuò)展成了可以適應(yīng)當(dāng)今網(wǎng)絡(luò)時(shí)代的程序。
他從20世紀(jì)的方法中梳理出令人驚訝的結(jié)果,但如果要將機(jī)器學(xué)習(xí)系統(tǒng)整合到關(guān)系谷歌命脈的復(fù)雜系統(tǒng)中,他卻持懷疑態(tài)度。大衛(wèi)·帕布洛·科恩說:“進(jìn)入谷歌的前兩年,我在搜索質(zhì)量部門工作,并嘗試用機(jī)器學(xué)習(xí)來改進(jìn)排名。結(jié)果證明:阿米特的團(tuán)隊(duì)是全世界最優(yōu)秀的,我們把阿里特腦海中的所有內(nèi)容都變成了硬編碼,并不斷取得進(jìn)步,我們已經(jīng)找不到超越他的方式。”
到2014年初,谷歌的機(jī)器學(xué)習(xí)大師們認(rèn)為需要改變現(xiàn)狀。迪恩說:“我們與排名團(tuán)隊(duì)展開了一系列討論。我們認(rèn)為至少應(yīng)該嘗試一下,看看是否有所收獲。”他的團(tuán)隊(duì)所設(shè)想的那個(gè)實(shí)驗(yàn),最終被證明對(duì)搜索至關(guān)重要:即文件排名與搜索請(qǐng)求的匹配程度有多高。迪恩稱:“我們跟他們說,嘗試用神經(jīng)網(wǎng)絡(luò)計(jì)算額外的分?jǐn)?shù),看看到底有沒有用。”
結(jié)果顯示這種方法確實(shí)有用。這套系統(tǒng)如今已經(jīng)成為谷歌搜索的一部分,被稱作RankBrain。它于2015年4月上線。谷歌繼續(xù)秉持著以往的風(fēng)格,對(duì)如何改進(jìn)搜索諱莫如深。但迪恩表示,RankBrain“融入到每一個(gè)搜索請(qǐng)求中”,雖然未必會(huì)影響所有的排名,但的確對(duì)很多搜索請(qǐng)求的排名都產(chǎn)生了影響。另外,該系統(tǒng)效果顯著。在谷歌計(jì)算排名時(shí)所使用的數(shù)百個(gè)信號(hào)中,RankBrain的使用排名第三。
迦南德里說:“我們成功利用機(jī)器學(xué)習(xí)改進(jìn)了搜索結(jié)果,這對(duì)公司來說意義重大,也引發(fā)了很多人的關(guān)注。”華盛頓大學(xué)教授佩德羅·多明戈斯則則表示:“檢索派與機(jī)器學(xué)習(xí)派始終都存在著分歧,機(jī)器學(xué)習(xí)派最終贏得了勝利。”
谷歌認(rèn)知轉(zhuǎn)換面臨的新挑戰(zhàn)是如何讓所有工程師都熟悉機(jī)器學(xué)習(xí)——哪怕不擅長(zhǎng)機(jī)器學(xué)習(xí)。這也是現(xiàn)在其它許多公司也在追求的目標(biāo),其中最引人關(guān)注的當(dāng)屬Facebook,該公司與谷歌一樣執(zhí)著于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。對(duì)這個(gè)領(lǐng)域的畢業(yè)生的競(jìng)爭(zhēng)變得更激烈,而谷歌正在努力維持其對(duì)畢業(yè)生的吸引力。學(xué)術(shù)圈多年以來都流傳著一個(gè)玩笑:即使不需要頂尖學(xué)生,谷歌也會(huì)招聘他們,避免人才被競(jìng)爭(zhēng)對(duì)手搶走。
多明戈斯說:“我的學(xué)生無一例外都得到了谷歌的錄用通知。”目前看來,競(jìng)爭(zhēng)的激烈程度有增無減。就在上周,谷歌宣布將在蘇黎世開設(shè)一個(gè)新的機(jī)器學(xué)習(xí)實(shí)驗(yàn)室,有很多工作崗位有待填補(bǔ)。但由于學(xué)術(shù)項(xiàng)目尚未培養(yǎng)大量機(jī)器學(xué)習(xí)專家,所以為員工提供在職培訓(xùn)面成為了必要措施。
但這卻并非易事,尤其是對(duì)于谷歌這樣的公司而言。這里有很多世界頂尖的工程師,他們畢生都在研究傳統(tǒng)的編程方式。機(jī)器學(xué)習(xí)卻需要截然不同的思維模式,人們之所以能變成編程大師,通常是因?yàn)樗麄儗?shí)現(xiàn)了對(duì)編程系統(tǒng)的完全控制。機(jī)器學(xué)習(xí)還需要掌握一些數(shù)學(xué)和統(tǒng)計(jì)學(xué)知識(shí),但是很多程序員卻對(duì)此不屑一顧,即便是那些能夠?qū)懗龀L(zhǎng)代碼的超級(jí)黑客也不例外。