據(jù)彭博社報道,2016年12月6日,中國大陸成千上萬的翻譯走進(jìn)各地辦公室,將無數(shù)外語小冊子、信件以及技術(shù)手冊翻譯成漢語。這場翻譯馬拉松持續(xù)了整整1個月,每天的翻譯工作持續(xù)15個小時。提供材料的客戶可以按照合同價獲取原件的專家級中文譯本。但是組織這場大規(guī)模翻譯行動的百度公司卻獲得更有價值的東西:數(shù)以百萬計(jì)的英語-普通話詞對,用以訓(xùn)練其在線翻譯引擎。
在人工智能(AI)領(lǐng)域,這家中國公司正面臨Alphabet、Facebook、IBM以及微軟等科技巨頭的競爭。2017年2月份,中國發(fā)展和改革委員會指定百度領(lǐng)導(dǎo)新的AI實(shí)驗(yàn)室,這標(biāo)志著中國政府認(rèn)為百度公司在這個領(lǐng)域擁有“國家冠軍”的氣質(zhì)。百度聯(lián)合創(chuàng)始人兼首席執(zhí)行官李彥宏在AI實(shí)驗(yàn)室2月份成立當(dāng)天表示,在過去2年半時間里,百度已經(jīng)在研發(fā)領(lǐng)域投入200多億元,大部分都投到AI研發(fā)上。
但是國家利益并不是百度投資AI的主要動機(jī):百度2016年?duì)I收增長下降了大約6%,而此前3年平均增長率超過30%。截止2016年12月31日2016財(cái)年結(jié)束,百度公司總營收為705億元,其中搜索廣告業(yè)務(wù)占絕對多數(shù),但正面臨本土競爭對手圍攻。2016年9月份EMarketer公布報告顯示,阿里巴巴已經(jīng)超過百度成為中國數(shù)字廣告市場新的領(lǐng)導(dǎo)者。百度希望AI能幫助其重新奪回在搜索領(lǐng)域的霸主地位,并確保新的投資取得成功。
這非常重要,因?yàn)橐呀?jīng)成立17年的百度曾嘗試多元化努力,并產(chǎn)生令人喜憂參半的結(jié)果。中國國際金融有限公司分析師娜塔莉·吳(Natalie Wu)表示,在2017年2月份之前的12個月中,百度旗下團(tuán)購網(wǎng)站糯米的每日訪客數(shù)量下降了59%,其食品遞送服務(wù)百度外賣也降至第三位。此外,華興資本分析師表示,盡管類似Netflix的流媒體視頻服務(wù)愛奇藝極受歡迎,但其今年需要斥資120億元保持內(nèi)容豐富。
這些步履蹣跚的努力意味著,百度對AI的推動正變得越來越重要。李彥宏在3月10日接受采訪時表示:“移動互聯(lián)網(wǎng)時代已經(jīng)走向終結(jié),我們將積極投資AI。我認(rèn)為這將造福于許多人,并支持工業(yè)轉(zhuǎn)型。”1月份,百度任命微軟錢高管陸奇(Qi Lu)擔(dān)任首席運(yùn)營官,圍繞深度學(xué)習(xí)、增強(qiáng)現(xiàn)實(shí)以及圖像識別等技術(shù)重塑公司。此外,曾在Alphabet深度學(xué)習(xí)團(tuán)隊(duì)效力的斯坦福大學(xué)學(xué)者吳恩達(dá)(Andrew Ng)2014年加盟百度,目前擔(dān)任首席科學(xué)家。
在吳恩達(dá)帶領(lǐng)下,百度的AI團(tuán)隊(duì)(分散于北京、深圳、上海以及美國加州森尼維爾)的研究實(shí)驗(yàn)室已經(jīng)擴(kuò)大到1300人,今年有望繼續(xù)增加數(shù)百人。吳恩達(dá)表示:“有很多東西是在中國發(fā)明的,也有許多是在美國發(fā)明的。通過這兩個國家的民眾,我們可以看到最新趨勢。”
2014年5月份某日,森尼維爾研究中心開張,吳恩達(dá)與其高級助理亞當(dāng)·科茨(Adam Coates)坐在空白的白板前面,確定了他們的首個項(xiàng)目。在勾勒出各種可能性與挑戰(zhàn)后,他們將語言識別作為建立其他一系列產(chǎn)品的基矗到2015年中期,這個50人的團(tuán)隊(duì)已經(jīng)推出名為Deep Speech的產(chǎn)品,它可以用英語破譯許多對話。這款軟件不需要逐詞分隔短語,而是通過解析大量語言數(shù)據(jù),然后推斷出模式,這個過程被稱為深度學(xué)習(xí)。與傳統(tǒng)依賴詞匯表和音標(biāo)單詞的翻譯引擎相比,這套系統(tǒng)可以更準(zhǔn)確地轉(zhuǎn)錄語音,因?yàn)樗鼤紤]詞匯的上下文語境以確定其意義。
然而有一個問題始終困擾著研究團(tuán)隊(duì),那就是隨著時間推移,從其他語言轉(zhuǎn)來的英語詞匯與姓名??拼恼f:“如果你想說:‘播放柴可夫斯基(Tchaikovsky)的音樂’,軟件會給出沒有意義的答案。為此,我們將這種現(xiàn)象稱為‘柴可夫斯基問題’。”百度的程序員們沒有簡單地向系統(tǒng)詞匯表中添加“柴可夫斯基”,而是幫助Deep Speech自己學(xué)習(xí)理解詞匯。這涉及抽取更多數(shù)據(jù),以幫助系統(tǒng)在語境中加強(qiáng)理解。
百度自然語言處理部副主管趙世奇博士回憶稱,當(dāng)他在哈爾濱理工大學(xué)計(jì)算機(jī)系就讀時,只有200萬個英語-漢語詞對可用于計(jì)算機(jī)翻譯?,F(xiàn)在,百度詞對已經(jīng)達(dá)到1億個。可是,這與Alphabet的5億詞對依然相差甚遠(yuǎn)。為了縮小差距,百度采用了古老策略,即使用人海戰(zhàn)術(shù)解決這個問題。該公司現(xiàn)在定期舉辦全年和分階段手動翻譯馬拉松活動,就像2016年12月份的活動。百度為客戶提供智能手機(jī)、凈水器等獎品。收集的數(shù)據(jù)可以幫助增強(qiáng)百度翻譯引擎的性能,同時幫助Deep Speech的進(jìn)一步開發(fā)。