四
對蘋果機器學(xué)習(xí)方面進展的最佳測量方式,或許來自它在AI上最重要的收購:Siri。Siri最初誕生自DARPA在智能助理上的一項計劃,后來部分科學(xué)家成立了一家公司,用同樣的技術(shù)開發(fā)了一款應(yīng)用。2010年,喬布斯親自說服公司創(chuàng)始成員將公司出售給蘋果,并指示將Siri整合進操作系統(tǒng)。在2011年10月iPhone 4S的發(fā)布會上,Siri是一大點亮?,F(xiàn)在它早已不是用戶長按Home鍵,或發(fā)出“Hey, Siri”指令進行喚醒(這一功能本身也使用了機器學(xué)習(xí),允許iPhone在不耗電的情況下了解周圍情況)這么簡單了。Siri的智能整合進了Apple Brain,即便不發(fā)場時也在工作。
作為核心產(chǎn)品而言,Cue提到了四個組成:語音識別(理解你何時與它對話),自然語言理解(理解說話內(nèi)容),執(zhí)行(滿足查詢或請求)以及響應(yīng)(產(chǎn)生回話)。“機器學(xué)習(xí)對所有這些都有重要影響。”
Tom Gruber(上)與Alex Acero
Siri高級研發(fā)部主管Tom Gruber是在最初的收購后加入了蘋果的,他表示,在蘋果把神經(jīng)網(wǎng)絡(luò)用于Siri之前,其用戶量已經(jīng)在產(chǎn)生大量數(shù)據(jù),而這對訓(xùn)練神經(jīng)網(wǎng)絡(luò)十分重要。“喬布斯說,一夜之間就會擁有數(shù)百萬用戶,還不用公測。突然之間就會有用戶,他們會告訴你,人們?nèi)绾闻c應(yīng)用對話。這是第一次革命,那之后神經(jīng)網(wǎng)絡(luò)時代到來了。”
隨著Siri轉(zhuǎn)移到用神經(jīng)網(wǎng)絡(luò)處理語音識別而來的,還有幾位AI專家,其中包括現(xiàn)在語音組的主管Alex Acero。Acero的語音識別經(jīng)歷始于90年代的蘋果,后來他在微軟研究院工作了多年。“我喜歡這類工作,也發(fā)表了很多論文。當Siri出現(xiàn)時,我意識到這是讓深度神經(jīng)網(wǎng)絡(luò)應(yīng)用得以實現(xiàn)的機會,不是讓幾百人用,而是讓數(shù)百萬人用。”換句話說,他就是蘋果想找的那類科學(xué)家優(yōu)先考慮產(chǎn)品而非發(fā)表論文。
當Acero在三年前加入時,Siri用的語音技術(shù)仍基本來自第三方的授權(quán),而這種情況必須改變。Federighi意識到,這是蘋果不斷在重復(fù)的一種模式。“隨著一項技術(shù)對開發(fā)核心產(chǎn)品變得越來越重要,我們會讓內(nèi)部逐漸接手開發(fā)。要開發(fā)偉大的產(chǎn)品,我們希望內(nèi)部擁有技術(shù),并在內(nèi)部創(chuàng)新,語音識別就是一個很好的例子。”
團隊開始訓(xùn)練神經(jīng)網(wǎng)絡(luò),以替代Siri早前的技術(shù)。蘋果的GPU集群不停運轉(zhuǎn),調(diào)用了大量數(shù)量。2014年7月的發(fā)布證明,所有努力都沒有白費。
Acero表示,“當時在所有語言上,錯誤率降低了兩倍,在很多場景下還不止如此。這都要歸功于深度學(xué)習(xí)及對它的優(yōu)化,不僅是算法方面,更是在產(chǎn)品開發(fā)的整個過程上。”
蘋果不是第一家在語音識別中使用DNN的公司,但它證明,控制整個運轉(zhuǎn)系統(tǒng)會產(chǎn)生優(yōu)勢。Acero表示,正是因為蘋果自己設(shè)計芯片,他能直接與編寫固件的芯片設(shè)計組工程師合作,最大化提升神經(jīng)網(wǎng)絡(luò)的性能。Siri團隊的需求甚至影響了iPhone設(shè)計的方方面面。
Fdferighi表示,“不僅僅是芯片,還涉及設(shè)備上的麥克風(fēng),以及麥克風(fēng)安裝的位置,還有如何調(diào)整硬件,以及處理音頻的軟件棧。這需要所有組件的協(xié)調(diào),比起只是開發(fā)軟件的公司,有著驚人的優(yōu)勢。”
另一個優(yōu)勢是,當蘋果的神經(jīng)網(wǎng)絡(luò)在一個產(chǎn)品上成功時,還能成為其它產(chǎn)品的核心技術(shù)。機器學(xué)習(xí)讓Siri理解了用戶,也讓輸入方式由手動變成了聽寫。也正是因為Siri的技術(shù),用戶語音輸入的信息也變得更流暢和完整。
Cue提到的Siri第二個部分是自然語言理解。Siri在2014年11月開始用機器學(xué)習(xí)理解用戶的意圖,并在一年后推出了深度學(xué)習(xí)版。如在語音識別上一樣,機器學(xué)習(xí)提升了體驗,特別是在理解指令上。
蘋果認為,沒有Siri上的技術(shù),它不太可能開發(fā)出最新版的Apple TV,因為后者也有語音控制功能。盡管早期的Siri版本要求你用清晰的方式說話,但深度學(xué)習(xí)加強版不僅能從大量電影和音樂中找到特定的選擇,更能處理“播放一部湯姆漢克斯主演的優(yōu)秀驚悚片”這樣的概念。這在以前是完全不可能的。