今天,Google宣布發(fā)布Google神經(jīng)機(jī)器翻譯(GNMT:Google Neural Machine Translation)系統(tǒng),該系統(tǒng)使用了當(dāng)前最先進(jìn)的訓(xùn)練技術(shù),能夠?qū)崿F(xiàn)到目前為止機(jī)器翻譯質(zhì)量的最大提升。
十年前,Google發(fā)布了 Google Translate,這項(xiàng)服務(wù)背后的核心算法是基于短語(yǔ)的機(jī)器翻譯。自那時(shí)起,機(jī)器智能的快速發(fā)展已經(jīng)給語(yǔ)音識(shí)別和圖像識(shí)別能力帶來(lái)了巨大的提升,但改進(jìn)機(jī)器翻譯仍然是一個(gè)極具挑戰(zhàn)的目標(biāo)。
幾年之前,Google開(kāi)始使用循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)直接學(xué)習(xí)一個(gè)輸入序列(如一種語(yǔ)言的一個(gè)句子)到一個(gè)輸出序列(另一種語(yǔ)言的同一個(gè)句子)的映射。其中基于短語(yǔ)的機(jī)器學(xué)習(xí)將輸入句子分解成詞和短語(yǔ),然后對(duì)它們的大部分進(jìn)行獨(dú)立翻譯,而神經(jīng)機(jī)器翻譯則將整個(gè)輸入句子視作翻譯的基本單元。這種方法的優(yōu)點(diǎn)是:相比之前的基于短語(yǔ)的翻譯系統(tǒng),這種方法所需的調(diào)整更少。在被首次提出時(shí),神經(jīng)機(jī)器翻譯系統(tǒng)在中等規(guī)模的公共基準(zhǔn)數(shù)據(jù)集上就達(dá)到了與基于短語(yǔ)的翻譯系統(tǒng)不相上下的準(zhǔn)確度。
自那以后,研究者提出了很多改進(jìn)神經(jīng)翻譯系統(tǒng)的技術(shù),其中包括模擬外部對(duì)準(zhǔn)模型來(lái)處理罕見(jiàn)詞 ,使用“注意(attention)”來(lái)對(duì)準(zhǔn)輸入詞和輸出詞以及將詞分解成更小的單元以應(yīng)對(duì)罕見(jiàn)詞。盡管有這些進(jìn)步,但神經(jīng)翻譯系統(tǒng)的速度和準(zhǔn)確度仍有很大的提升空間。而現(xiàn)在通過(guò)讓神經(jīng)翻譯系統(tǒng)戰(zhàn)勝在非常大型的數(shù)據(jù)集上工作的許多挑戰(zhàn),Google打造了一個(gè)在速度和準(zhǔn)確度上都已足夠?yàn)橛脩?hù)帶來(lái)更好服務(wù)的翻譯系統(tǒng)。

下面的可視化圖展示了Google神經(jīng)翻譯系統(tǒng)將一個(gè)漢語(yǔ)句子翻譯成英語(yǔ)句子的過(guò)程。首先,該網(wǎng)絡(luò)將這句漢語(yǔ)句子的詞編碼成一個(gè)向量列表,其中每個(gè)向量都表示了到目前為止所有被讀取到的詞的含義(編碼器“Encoder”)。一旦讀取完整個(gè)句子,解碼器就開(kāi)始工作——一次生成英語(yǔ)句子的一個(gè)詞(解碼器“Decoder”)。為了在每一步都生成翻譯正確的詞,解碼器重點(diǎn)注意了與生成英語(yǔ)詞最相關(guān)編碼的漢語(yǔ)向量的權(quán)重分布(注意“Attention”;藍(lán)色連線的透明度表示解碼器對(duì)一個(gè)被編碼的詞的注意程度)。

使用人類(lèi)對(duì)比評(píng)分指標(biāo),神經(jīng)翻譯系統(tǒng)得出的翻譯內(nèi)容相較于之前實(shí)現(xiàn)了極大的提升。在雙語(yǔ)評(píng)估者的幫助下,通過(guò)在維基百科和新聞網(wǎng)站的例句測(cè)定,Google發(fā)現(xiàn):在多個(gè)樣本的翻譯中,神經(jīng)翻譯系統(tǒng)將誤差降低了 55%-85%甚至以上。

今天,Google還宣布將神經(jīng)翻譯系統(tǒng)投入到了一個(gè)非常困難的語(yǔ)言對(duì)(漢語(yǔ)-英語(yǔ))的翻譯中?,F(xiàn)在,移動(dòng)版和網(wǎng)頁(yè)版的 Google Translate 的漢英翻譯已經(jīng)開(kāi)始完全使用神經(jīng)翻譯系統(tǒng)了——每天大約 1800 萬(wàn)條翻譯。其中,Google開(kāi)放的機(jī)器學(xué)習(xí)工具套件 TensorFlow 和張量處理單元為部署強(qiáng)大的神經(jīng)翻譯系統(tǒng)模型提供了足夠的計(jì)算力,同時(shí)也滿(mǎn)足了 Google Translate 嚴(yán)格的延遲要求。漢語(yǔ)到英語(yǔ)的翻譯只是 Google Translate 所支持的超過(guò) 10000 種語(yǔ)言對(duì)中的一種,在未來(lái)幾個(gè)月,Google還將繼續(xù)把神經(jīng)翻譯系統(tǒng)擴(kuò)展到更多的語(yǔ)言對(duì)上。
但機(jī)器翻譯的問(wèn)題并沒(méi)有完全解決。Google神經(jīng)翻譯系統(tǒng)仍然會(huì)犯一些人類(lèi)譯者永遠(yuǎn)不會(huì)出的重大錯(cuò)誤,例如漏詞和錯(cuò)誤翻譯專(zhuān)有名詞或罕見(jiàn)術(shù)語(yǔ),以及將句子單獨(dú)進(jìn)行翻譯而不考慮其段落或上下文。為了給用戶(hù)帶來(lái)更好的服務(wù),Google還有更多的工作要做。但Google神經(jīng)翻譯系統(tǒng)仍然代表著一個(gè)重大的里程碑,Google希望與過(guò)去幾年在這個(gè)研究方向上有所貢獻(xiàn)的研究者和工程師們一起慶祝它的誕生。