本文作者:張春良博士,杭州雅拓網(wǎng)絡(luò)技術(shù)有限公司市場(chǎng)總監(jiān),從事機(jī)器翻譯研究及機(jī)器翻譯產(chǎn)品研發(fā)10年。
大家是否記得科幻電影《星際迷航:企業(yè)號(hào)》里有這樣的情景:星艦通訊指揮官佐藤星利用翻譯器發(fā)明了linguacode矩陣,通過(guò)把翻譯器集成到星艦人員佩戴的交流別針上或者植入耳朵里,說(shuō)不同語(yǔ)言的人們就可以進(jìn)行自由交流。其實(shí),這樣的設(shè)備展示的核心技術(shù)就是機(jī)器翻譯(Machine Translation)技術(shù)。國(guó)外曾報(bào)道有一個(gè)人利用Google翻譯游遍全世界,利用機(jī)器翻譯工具與當(dāng)?shù)厝诉M(jìn)行交流,他還特意提到,在他生病住院時(shí),他是如何利用該翻譯工具與醫(yī)生交流開(kāi)展治療的。
據(jù)統(tǒng)計(jì),世界上大約存在6000多種語(yǔ)言,《圣經(jīng)》中巴別塔的故事為我們提供過(guò)這樣一種解釋:上帝不想讓人類成功建造能夠通天的巴別塔,所以把人們分散到世界各地,讓人們說(shuō)不同語(yǔ)言,造成大家無(wú)法自由交流。如果想重建巴別塔,讓使用如此眾多語(yǔ)言的人們之間跨越語(yǔ)言的隔閡,機(jī)器翻譯技術(shù)將會(huì)是解決問(wèn)題的關(guān)鍵。
一提機(jī)器翻譯,大家比較熟悉的是Google翻譯和百度翻譯等基于互聯(lián)網(wǎng)公有云模式提供的在線翻譯服務(wù)。在2013年谷歌I/O大會(huì)上,谷歌翻譯團(tuán)隊(duì)中負(fù)責(zé)前端產(chǎn)品和移動(dòng)技術(shù)的Josh Estelle曾提到,谷歌翻譯每天為全球兩億多個(gè)用戶提供服務(wù),每天翻譯次數(shù)達(dá)十億次,每天翻譯處理的文字?jǐn)?shù)量,相當(dāng)于一百萬(wàn)冊(cè)圖書(shū),超過(guò)了全世界的專業(yè)翻譯人員一年能夠翻譯的文字規(guī)模,其中92%的翻譯需求來(lái)自于美國(guó)以外的地區(qū)。此外,據(jù)百度內(nèi)部的統(tǒng)計(jì),目前在線翻譯貢獻(xiàn)了超過(guò)5%的用戶訪問(wèn)流量。
有人稱機(jī)器翻譯是自然語(yǔ)言處理領(lǐng)域的皇冠明珠。實(shí)際上,機(jī)器翻譯歷史與計(jì)算機(jī)的發(fā)展歷史差不多悠久。1949年美國(guó)洛克菲勒基金會(huì)自然科學(xué)部門(mén)的負(fù)責(zé)人Warren Weaver發(fā)表了一份以《翻譯》為題的備忘錄,標(biāo)志著開(kāi)啟了機(jī)器翻譯研究的歷史性一頁(yè)。特別是最近十多年,統(tǒng)計(jì)機(jī)器翻譯技術(shù)快速興起,通過(guò)從大量的雙語(yǔ)數(shù)據(jù)中自動(dòng)學(xué)習(xí)翻譯知識(shí),一套翻譯系統(tǒng)可以在三五天甚至一天內(nèi)訓(xùn)練完成。因此,以統(tǒng)計(jì)機(jī)器翻譯技術(shù)為核心的翻譯產(chǎn)品越來(lái)越受到工業(yè)界的青睞。從翻譯性能來(lái)看,與通過(guò)其它技術(shù)構(gòu)建的翻譯系統(tǒng)相比,統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的性能更優(yōu)。
隨著科技和社會(huì)經(jīng)濟(jì)的快速發(fā)展,全世界的互聯(lián)互通已經(jīng)成為不可阻擋的發(fā)展趨勢(shì),首當(dāng)其沖的便是正在不斷深化的跨語(yǔ)言信息連通,我們正在以前所未有的速度從單語(yǔ)世界(國(guó)內(nèi))轉(zhuǎn)向多語(yǔ)世界(國(guó)際化)。小到出國(guó)旅游翻譯或者技術(shù)資料翻譯,大到基于互聯(lián)網(wǎng)的在線電商、旅游、外貿(mào)活動(dòng)、O2O、租車、金融等服務(wù)的國(guó)際化市場(chǎng)推廣,一個(gè)無(wú)法避免的痛點(diǎn)在于面臨多語(yǔ)種語(yǔ)言翻譯問(wèn)題。網(wǎng)絡(luò)上的海量和動(dòng)態(tài)變化的多語(yǔ)言信息,如何通過(guò)低成本和快速的翻譯實(shí)現(xiàn)有效交流?基于人工翻譯來(lái)解決這個(gè)難題是不可想象的,唯一的解決方法就是充分利用機(jī)器翻譯技術(shù)提供智能自動(dòng)翻譯服務(wù)。
近十幾年來(lái),在各國(guó)政府和產(chǎn)業(yè)界的大力支持下,機(jī)器翻譯研究和產(chǎn)業(yè)化取得了快速進(jìn)展。美國(guó)政府早在2009年就把自動(dòng)翻譯列為最具影響力的未來(lái)十大技術(shù)之一;中國(guó)政府也把包括機(jī)器翻譯技術(shù)在內(nèi)的自然語(yǔ)言理解研究列入到國(guó)家中長(zhǎng)期科技發(fā)展規(guī)劃綱要中。也正是看到機(jī)器翻譯所蘊(yùn)含的巨大產(chǎn)業(yè)價(jià)值,各大互聯(lián)網(wǎng)公司都在積極進(jìn)行機(jī)器翻譯技術(shù)和產(chǎn)品的研發(fā)。
筆者曾與多位搞專業(yè)翻譯的朋友以機(jī)器翻譯的應(yīng)用為話題做交流,五年以前得到的反饋基本上都是“唱衰”機(jī)器翻譯的負(fù)面觀點(diǎn),認(rèn)為機(jī)器翻譯根本無(wú)法與人工翻譯相提并論。但近兩年,翻譯界,尤其是翻譯公司,對(duì)機(jī)器翻譯的評(píng)價(jià)發(fā)生很大的積極變化,逐漸開(kāi)始接受機(jī)器翻譯具有可用性的結(jié)論,甚至還有相當(dāng)一部分人害怕機(jī)器翻譯,擔(dān)心丟飯碗。從當(dāng)前機(jī)器翻譯技術(shù)的成熟度來(lái)判斷,在可預(yù)見(jiàn)的將來(lái),機(jī)器翻譯還不可能完全代替人工翻譯,但代替一些水平較低的翻譯新手已經(jīng)成為可能。實(shí)際上,如果針對(duì)某個(gè)特定領(lǐng)域構(gòu)建一套專業(yè)的機(jī)器翻譯系統(tǒng),那么它會(huì)具有很好的可用性,能夠?yàn)閲?guó)內(nèi)近四萬(wàn)家翻譯服務(wù)企業(yè)和400萬(wàn)專業(yè)譯員提供非常好的輔助翻譯幫助。
在實(shí)時(shí)語(yǔ)音翻譯方面,谷歌、百度等互聯(lián)網(wǎng)巨頭利用語(yǔ)音識(shí)別/合成和機(jī)器翻譯技術(shù)開(kāi)發(fā)了手機(jī)版的語(yǔ)音翻譯APP。只要攜帶安裝該APP的手機(jī),就可以在不同語(yǔ)言間進(jìn)行自由交流,這種工具特別適合于普通大眾出國(guó)旅游之用,真正實(shí)現(xiàn)“一機(jī)在手,走遍全球”。微軟在2014年5月的Code Conference上也演示了Skype實(shí)時(shí)翻譯技術(shù)演示中,微軟副總裁帕爾通過(guò)Skype利用實(shí)時(shí)翻譯技術(shù)與微軟的另一位員工進(jìn)行了對(duì)話,前者使用英語(yǔ),后者使用德語(yǔ),演示內(nèi)容顯示,Skype順利完成了兩者對(duì)話時(shí)的實(shí)時(shí)翻譯。
2014年的“雙十一”購(gòu)物狂歡節(jié),在阿里巴巴平臺(tái)上,全球總共有217個(gè)國(guó)家和地區(qū)參與了這次搶購(gòu)。不只是阿里系,做“跨境電商”讓“買賣遍全球”已經(jīng)成為所有電商的共識(shí)。利用機(jī)器翻譯技術(shù)解決買方、賣方以及電商平臺(tái)提供方的跨語(yǔ)言溝通問(wèn)題,eBay已經(jīng)走在了前列。據(jù)科技博客網(wǎng)站TechCrunch報(bào)道,eBay已經(jīng)在2013年開(kāi)拓俄羅斯市場(chǎng)的時(shí)候嘗試了機(jī)器翻譯。俄羅斯用戶輸入俄語(yǔ)搜索關(guān)鍵字的時(shí)候,也能返回與關(guān)鍵字匹配、用英語(yǔ)描述的商品。國(guó)內(nèi)的阿里巴巴也有自己的機(jī)器翻譯研究團(tuán)隊(duì),已經(jīng)研制出了英語(yǔ)和俄語(yǔ)、英語(yǔ)和葡萄牙語(yǔ)之間的多套機(jī)器翻譯系統(tǒng)。機(jī)器翻譯技術(shù)也可以在電商服務(wù)的其它方面有所作為,比如將多國(guó)語(yǔ)機(jī)器翻譯云平臺(tái)與基于互聯(lián)網(wǎng)在線服務(wù)的人工客服系統(tǒng)連接在一起,就可以提供多語(yǔ)言智能自動(dòng)翻譯服務(wù),幫助客服人員與國(guó)外客戶進(jìn)行友好交流。
如果將翻譯云平臺(tái)與聊天平臺(tái)相結(jié)合,就可以實(shí)現(xiàn)來(lái)自不同國(guó)家的朋友們進(jìn)行基于文本/語(yǔ)音/視頻的友好交流,可為社交平臺(tái)、網(wǎng)游平臺(tái)等提供語(yǔ)言溝通服務(wù),比如目前微信就正在提供漢英、漢德等21種語(yǔ)言間的機(jī)器翻譯服務(wù)。今天智能設(shè)備產(chǎn)業(yè)化非?;?,與集成語(yǔ)音識(shí)別/合成的穿戴式設(shè)備和智慧芯片類似,集成機(jī)器翻譯技術(shù)的穿戴式設(shè)備和智慧芯片,隨著4G通信技術(shù)的成熟,相信將來(lái)也有很酷的想象空間。
此外,在當(dāng)前火爆興起的在線教育市場(chǎng)上,包括Mooc在內(nèi)的各種大型開(kāi)放式網(wǎng)絡(luò)課程平臺(tái)受到了數(shù)千萬(wàn)學(xué)習(xí)者的熱捧,但是,對(duì)于一個(gè)只懂中文的學(xué)習(xí)者,如何能夠通過(guò)在線教育平臺(tái)聆聽(tīng)來(lái)自Harvard教授的真知灼見(jiàn)?通過(guò)機(jī)器翻譯技術(shù),我們可以把全球最優(yōu)質(zhì)的教學(xué)資源分享給全球數(shù)以億計(jì)的學(xué)習(xí)者,讓每個(gè)人超越語(yǔ)言的隔閡,真正都擁有平等的、最好的教育機(jī)會(huì)。
另外值得重點(diǎn)一提的,我國(guó)是統(tǒng)一的多民族國(guó)家,語(yǔ)種多,文種多。民族語(yǔ)文工作是鞏固社會(huì)主義民族關(guān)系和開(kāi)展民族工作的重要內(nèi)容,開(kāi)發(fā)面向少數(shù)民族語(yǔ)言的多語(yǔ)言智能翻譯系統(tǒng),可以進(jìn)一步推進(jìn)少數(shù)民族語(yǔ)文在雙語(yǔ)教學(xué)、成人掃盲、新聞出版、互聯(lián)網(wǎng)等領(lǐng)域的運(yùn)用,對(duì)國(guó)家穩(wěn)定和促進(jìn)民族地區(qū)經(jīng)濟(jì)建設(shè)、政治建設(shè)、文化建設(shè)和社會(huì)建設(shè),具有深遠(yuǎn)的意義,為此國(guó)家正在給予大量的人力和資金支持。
在以上提到的各種機(jī)器翻譯應(yīng)用中,最核心的部分是多國(guó)語(yǔ)機(jī)器翻譯云平臺(tái)的構(gòu)建。最簡(jiǎn)單的解決方案是基于互聯(lián)網(wǎng)公有云模式提供在線翻譯服務(wù),如Google翻譯、bing翻譯和百度翻譯。通過(guò)使用在線翻譯API進(jìn)行二次開(kāi)發(fā),可以基本滿足機(jī)器翻譯的大眾化使用和要求較低的企業(yè)級(jí)應(yīng)用,但前提是翻譯訪問(wèn)量不能太大(很多API的翻譯請(qǐng)求次數(shù)有限制),對(duì)翻譯結(jié)果要求不能過(guò)高(上述系統(tǒng)為通用領(lǐng)域翻譯,不支持個(gè)性化定制服務(wù))。還有一個(gè)最大的實(shí)際問(wèn)題,就是數(shù)據(jù)翻譯安全性問(wèn)題,這是包括很多國(guó)際化企業(yè)、政府部門(mén)以及國(guó)家安全情報(bào)部門(mén)非常關(guān)注的問(wèn)題。如果翻譯需求量很大,而且數(shù)據(jù)翻譯需要的安全級(jí)別很高,那么比較好的解決方案是通過(guò)本地構(gòu)建多國(guó)語(yǔ)機(jī)器翻譯私有云平臺(tái),幫助用戶突破這些限制。為此,很多對(duì)此有需求的公司自己組建翻譯團(tuán)隊(duì)利用開(kāi)源系統(tǒng)如Moses和NiuTrans來(lái)搭建機(jī)器翻譯私有云平臺(tái);對(duì)于其它企業(yè)用戶來(lái)說(shuō),SDL的企業(yè)級(jí)翻譯服務(wù)器和NiuTrans Server都能夠提供專業(yè)化的多國(guó)語(yǔ)機(jī)器翻譯私有云服務(wù)。
綜上所述,我們有充分的理由相信,在單語(yǔ)世界到多語(yǔ)世界的發(fā)展潮流中,機(jī)器翻譯技術(shù)正在改變?nèi)藗兊墓ぷ骱蜕罘绞健R苍S三五年之后,如今在很多人眼中仍屬于“高大上”的機(jī)器翻譯會(huì)走下神壇,不斷融入大家的日常生活中,造福社會(huì),機(jī)器翻譯產(chǎn)業(yè)必將帶來(lái)新的一輪產(chǎn)業(yè)浪潮。