前段時(shí)間,谷歌報(bào)告了其在神經(jīng)機(jī)器翻譯上所取得的重大研究進(jìn)展,并也實(shí)現(xiàn)了 Google Translate應(yīng)用上漢語(yǔ)-英語(yǔ)翻譯的商品化(參閱《谷歌翻譯整合神經(jīng)網(wǎng)絡(luò):機(jī)器翻譯實(shí)現(xiàn)顛覆性突破》和《谷歌神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)發(fā)布后,我們和Google Brain的工程師聊了聊》);近日,來(lái)自紐約大約、香港大學(xué)和卡內(nèi)基梅隆大學(xué)的研究者又報(bào)告了神經(jīng)機(jī)器翻譯在實(shí)時(shí)機(jī)器翻譯上的突破。
盡管機(jī)器學(xué)習(xí)技術(shù)發(fā)展迅猛,但谷歌也承認(rèn)機(jī)器翻譯還是會(huì)犯人類(lèi)永遠(yuǎn)不會(huì)犯的錯(cuò)誤。這一問(wèn)題增加了實(shí)時(shí)輸入的挑戰(zhàn),讓問(wèn)題變得十分棘手。
實(shí)時(shí)機(jī)器翻譯的使用范圍涵蓋消費(fèi)者應(yīng)用(如 Skype Translator)到有望能夠幫助專(zhuān)業(yè)語(yǔ)言學(xué)家顯著提高生產(chǎn)力的自適應(yīng)機(jī)器翻譯工具。
Graham Neubig
「這項(xiàng)研究的最終目標(biāo)是語(yǔ)音,」Graham Neubig 告訴 Slator。Neubig 是卡耐基梅隆大學(xué)語(yǔ)言技術(shù)研究所的助理教授,他與香港大學(xué)博士 Jiatao Gu,講座教授 Victor O.K. Li 和紐約大學(xué)的助理教授 Kyunghyun Cho 合作進(jìn)行了這項(xiàng)研究。
Kyunghyun Cho
Victor O.K. Li
Neubig 解釋說(shuō):「同步機(jī)器翻譯是一項(xiàng)能夠在說(shuō)話或是打字的同時(shí)實(shí)時(shí)進(jìn)行語(yǔ)句翻譯的技術(shù)。以語(yǔ)音為例,在完整的句子結(jié)束之前進(jìn)行翻譯是很重要的,因?yàn)橐粋€(gè)講話者說(shuō)完一句話需要10-20秒,這就意味著需要這么長(zhǎng)時(shí)間翻譯器才能夠向用戶開(kāi)始提供翻譯內(nèi)容。這種滯后意味著諸如使用語(yǔ)音翻譯技術(shù)作為中介流暢地參加一個(gè)多方會(huì)談是困難的?!?/p>
根據(jù) Neubig 所言,在過(guò)去解決這種滯后的一種方法是將輸入分割成較短的段而不是直接處理整個(gè)句子,然后將各段獨(dú)立地進(jìn)行翻譯。如果能夠找到一個(gè)好的分割位置(「比如,在可以彼此分開(kāi)翻譯的短語(yǔ)之間」),就可以減少滯后。這種技術(shù)相較之前更快,但是仍然降低了流暢度。
然而,這項(xiàng)研究的與眾不同之處是它使用了神經(jīng)機(jī)器翻譯(NMT)框架(圖2),能夠「自動(dòng)學(xué)習(xí)什么時(shí)候開(kāi)始翻譯詞以及什么時(shí)候等待更多的輸入?!?/p>
如果你愿意,可以想象一個(gè)等待翻譯打字的 NMT 系統(tǒng),它嘗試根據(jù)所有已經(jīng)輸入的單詞生成下一個(gè)單詞的翻譯。接著,根據(jù)神經(jīng)網(wǎng)絡(luò)現(xiàn)在的狀態(tài)(「以及我們對(duì)下個(gè)翻譯的置信度,」Neubig 說(shuō)),它將會(huì)自動(dòng)決定這個(gè)單詞是否應(yīng)當(dāng)被輸出或是等待另外的輸入。
「如果答案是『是,輸出單詞,』那么輸出單詞同時(shí)返回到 1。如果答案是『否,我們不夠確定,』那么停止輸入同時(shí)返回到2,」Neubig 說(shuō)道。
他補(bǔ)充說(shuō),為了系統(tǒng)能夠正確地工作,他們要問(wèn)自己:我們?cè)鯓硬拍転檫@項(xiàng)工作設(shè)計(jì)出合適的機(jī)器學(xué)習(xí)算法?我們?cè)趺磥?lái)確定翻譯的便捷性和準(zhǔn)確性之間的平衡?我們?cè)趺茨芮〉胶锰幍厮阉髯罴逊g?
「這些問(wèn)題的答案就是本篇論文中技術(shù)內(nèi)容的關(guān)鍵部分,」Neubig 說(shuō)道。
他指出,「在我們的實(shí)驗(yàn)中,我們首次證明了這些算法能在同步翻譯上表現(xiàn)得非常好,遠(yuǎn)遠(yuǎn)優(yōu)于之前的基于分割的算法。我們認(rèn)為這一表現(xiàn)的主要原因在于我們的方法記憶了之前所有輸入的單詞,并且在選擇下一個(gè)要翻譯的單詞的時(shí)候?qū)χ八袉卧~進(jìn)行了考量,而這對(duì)以前基于分割的方法來(lái)說(shuō)并不容易?!?/p>
下文是 Slator 對(duì) Graham Neubig 采訪關(guān)鍵部分的摘錄:
Slator:在第6章,你提到同步翻譯是相關(guān)工作的典型應(yīng)用,但是你的論文基本聚焦在文本輸入而不是語(yǔ)音輸入。那么這項(xiàng)研究的主要實(shí)際應(yīng)用是什么呢?
Neubig:這項(xiàng)研究的最終目標(biāo)是語(yǔ)音。在這項(xiàng)工作中我們處理文本因?yàn)檫@更易于起步;因?yàn)樵谔幚碚Z(yǔ)音的時(shí)候還有附加的事項(xiàng)需要考慮,例如語(yǔ)音識(shí)別結(jié)果導(dǎo)致的附加的不確定性。我們對(duì)于在將來(lái)能處理語(yǔ)音絕對(duì)地感興趣,這也是我們將要做的事