中國IDC圈1月18日報道:在2015年度國家科學(xué)技術(shù)獎勵大會上,由百度與中國科學(xué)院自動化所、中國科學(xué)院計算技術(shù)研究所、浙江大學(xué)、哈爾濱工業(yè)大學(xué)、清華大學(xué)等單位共同研發(fā)的“基于大數(shù)據(jù)的互聯(lián)網(wǎng)機(jī)器翻譯核心技術(shù)及產(chǎn)業(yè)化”項目(以下簡稱“機(jī)器翻譯項目”),獲得了國家科學(xué)技術(shù)進(jìn)步獎二等獎。
此項目獲國家科技大獎,標(biāo)志著互聯(lián)網(wǎng)大數(shù)據(jù)為我國機(jī)器翻譯技術(shù)插上了騰飛的“翅膀”,同時也引發(fā)了人們對機(jī)器翻譯的關(guān)注和探討:在如今的大數(shù)據(jù)時代,機(jī)器翻譯能否取代人工?記者就此采訪了相關(guān)專家。
“機(jī)器翻譯”技術(shù)是世界性難題
機(jī)器翻譯技術(shù)涉及計算機(jī)、認(rèn)知科學(xué)、語言學(xué)等學(xué)科,一直被科學(xué)界公認(rèn)為是人工智能領(lǐng)域最難的課題之一。
“機(jī)器翻譯出現(xiàn)于20世紀(jì)40年代,美國等發(fā)達(dá)國家曾出現(xiàn)過機(jī)器翻譯技術(shù)研究熱潮。然而多年來,機(jī)器翻譯卻一直沒有得到普遍應(yīng)用。”百度技術(shù)副總裁、機(jī)器翻譯項目負(fù)責(zé)人王海峰接受記者采訪時介紹,因為讓計算機(jī)理解人類語言,要經(jīng)歷從分析、理解到轉(zhuǎn)換生成等繁雜步驟,讓原本只認(rèn)識“0”和“1”的計算機(jī)去實現(xiàn)不同語言之間的翻譯,涉及語言現(xiàn)象的靈活多樣、翻譯知識獲取難度大、翻譯模型計算復(fù)雜度高等多個難題。
據(jù)了解,中國機(jī)器翻譯研究起步于1957年,是世界上第4個開始研究機(jī)器翻譯的國家。雖然歷經(jīng)幾十年的發(fā)展,但機(jī)器翻譯技術(shù)始終未能突破真正實用的門檻。王海峰從1993年初開始從事機(jī)器翻譯領(lǐng)域研究工作,最終他組建了項目研究團(tuán)隊,集合了清華大學(xué)、浙江大學(xué)、哈爾濱工業(yè)大學(xué)以及中科院等國內(nèi)頂尖科研力量,通過百度豐富的海量互聯(lián)網(wǎng)數(shù)據(jù),再經(jīng)過云計算平臺處理,才讓機(jī)器翻譯從理論走向?qū)嵺`,變成可能。
基于大數(shù)據(jù)的互聯(lián)網(wǎng)翻譯成為突破口
近些年來,隨著互聯(lián)網(wǎng)以及大數(shù)據(jù)的迅猛發(fā)展,基于大數(shù)據(jù)的互聯(lián)網(wǎng)翻譯成為了機(jī)器翻譯技術(shù)實用化的突破口。王海峰說:“組建研發(fā)團(tuán)隊后,我們從整個互聯(lián)網(wǎng)上挖掘翻譯資源,在此基礎(chǔ)上使用云計算平臺訓(xùn)練統(tǒng)計翻譯模型、深度學(xué)習(xí)模型,最終讓機(jī)器翻譯真正達(dá)到實用水平,也實現(xiàn)了機(jī)器翻譯領(lǐng)域很多研究者們的畢生夙愿。”
王海峰介紹,互聯(lián)網(wǎng)大數(shù)據(jù)給機(jī)器翻譯帶來了機(jī)遇,語言資源數(shù)據(jù)量激增,使得海量翻譯知識的自動獲取和實時更新成為可能。但同時,互聯(lián)網(wǎng)大數(shù)據(jù)也帶來了新的挑戰(zhàn):比如互聯(lián)網(wǎng)語言數(shù)據(jù)噪聲大,語言歧義現(xiàn)象多,小語種雙語資源數(shù)據(jù)稀缺等。他們的項目團(tuán)隊遭遇了不少難題,比如2010年初,通過數(shù)據(jù)分析,他們的研究團(tuán)隊發(fā)現(xiàn),互聯(lián)網(wǎng)數(shù)據(jù)雖大,里面卻存在著大量的低質(zhì)語料,比如“好好學(xué)習(xí)、天天向上”在抓取回來的語料中大多數(shù)都被翻為了“good good study,day day up”。
面對如此令人啼笑皆非的語料,項目團(tuán)隊反復(fù)研究改進(jìn),最終將傳統(tǒng)文本處理技術(shù)與互聯(lián)網(wǎng)技術(shù)完美結(jié)合。國家科技獎的項目評審專家認(rèn)為,該獲獎項目突破了機(jī)器翻譯領(lǐng)域內(nèi)的四大世界級技術(shù)難題:“提出基于大數(shù)據(jù)的互聯(lián)網(wǎng)機(jī)器翻譯模型,快速響應(yīng)高負(fù)荷翻譯需求;基于大數(shù)據(jù)的翻譯知識獲取,克服語言數(shù)據(jù)噪聲問題;通過深度語義分析和翻譯技術(shù),解決語言語義歧義問題;提出樞軸語言機(jī)器翻譯技術(shù),實現(xiàn)了稀缺語種的多語言翻譯。”
未來需要機(jī)器翻譯和人工翻譯的融合發(fā)展
現(xiàn)在,在百度等大數(shù)據(jù)翻譯平臺,輸入任何需要翻譯的語言,都能得到比較準(zhǔn)確的翻譯語言結(jié)果。那么,有了機(jī)器翻譯技術(shù),未來機(jī)器翻譯是否會取代人工翻譯呢?
“與人工翻譯相比,機(jī)器翻譯具有獨特的優(yōu)勢。隨著互聯(lián)網(wǎng)數(shù)據(jù)的不斷豐富、翻譯模型的持續(xù)創(chuàng)新,機(jī)器翻譯效果會被打磨得越來越好。也許三五年后,看似高大上的機(jī)器翻譯會融入日常生活的方方面面。”王海峰接受記者采訪時表示:“首先,機(jī)器翻譯現(xiàn)在可以覆蓋多達(dá)幾十種語言,這對于人工翻譯來說是難以達(dá)到的。另外,機(jī)器翻譯系統(tǒng)具有可涵蓋多領(lǐng)域、多行業(yè)的海量詞典和翻譯模型,可在不同場景下進(jìn)行翻譯,而反觀人工翻譯,則往往只能精深于某個特定的領(lǐng)域或行業(yè)。機(jī)器翻譯正在為人們生活帶來各種便利。人們可以通過機(jī)器翻譯,解決衣食住行中遇到的語言難題。小到出國旅游、科技文獻(xiàn)翻譯,大到國際貿(mào)易、跨語言文化交流,多語言信息聯(lián)通需求,都讓機(jī)器翻譯發(fā)揮重要價值。”