在國際會議上,翻譯人員是人們熟悉的,但翻譯機(jī)器人就鮮見了?日前,在國際計算語言學(xué)聯(lián)合會2015年年會(ACL-2015)的終身成就獎頒獎互動環(huán)節(jié)上,來自百度公司的機(jī)器人“小度”,就擔(dān)任起了這樣的角色。
“我們想進(jìn)一步把人和計算機(jī)聯(lián)系起來,就要對人的自然語言進(jìn)行處理。”說這話的正是“小度”翻譯的服務(wù)對象,來自哈爾濱工業(yè)大學(xué)的教授李生。作為第一位獲得“ACL終身成就獎”的中國學(xué)者,李生長期致力于機(jī)器翻譯、句法語義分析、信息檢索等自然語言處理及相關(guān)方向的研究。
中國自然語言處理走過了哪些歷程?發(fā)展如何?未來又將走向何方?為此,記者對李生及相關(guān)研究人員進(jìn)行了專訪。
中文自有“特殊性” 信息處理“特別難”
國內(nèi)生產(chǎn)的智能翻譯機(jī)器人“飛飛”。
1947年,美國數(shù)學(xué)家、工程師沃倫·韋弗提出了以計算機(jī)進(jìn)行翻譯的設(shè)想,機(jī)器翻譯從此步入歷史舞臺。上世紀(jì)50年代,機(jī)器翻譯研究持續(xù)走俏,美、蘇等國家均出現(xiàn)了研究熱潮。
與此同時,機(jī)器翻譯的研究工作在中國也逐步展開。據(jù)李生介紹,1959年中國演示了第一部機(jī)器翻譯系統(tǒng),可將9種俄文句型譯成中文。1985年,李生團(tuán)隊研制出漢英機(jī)器翻譯系統(tǒng)CEMT-I,成為我國第一個通過技術(shù)鑒定的漢英機(jī)器翻譯系統(tǒng)。
自然語言相對于形式語言而言,后者是人類設(shè)計出來的、可為數(shù)學(xué)和計算機(jī)處理的標(biāo)準(zhǔn)化語言,而自然語言即人類所說的話語。機(jī)器翻譯作為自然語言處理的重要領(lǐng)域,涉及數(shù)學(xué)、語言學(xué)、計算機(jī)科學(xué)等多個學(xué)科。“對自然語言的處理包括分析、理解及轉(zhuǎn)換生成等任務(wù)。”李生介紹,“比如對語言詞法、語法、語義、情感、主題的研究就屬于分析和理解;而翻譯、文摘等則屬于語言的轉(zhuǎn)換生成。”
讓原本只認(rèn)識“0”和“1”的計算機(jī)去理解和處理人類的語言有多難,作為中國中文信息學(xué)會理事長的李生對此深有體會,他舉了兩個例子:“別人對你說‘你可真行’,那么他是在夸獎你,還是在責(zé)怪你?這需要基于特定的語境才能分析出來;反過來,一種意思也會有多種表達(dá)方式,比如說‘我餓了’和‘我的肚子咕咕叫了’字面表達(dá)雖不同,意思卻是一致的。”
“中文的傳統(tǒng)文化積淀很深厚,使得話語往往有更深層的含義。如果不聯(lián)系語境,很易產(chǎn)生歧義。”百度公司自然語言處理部高級研究員趙世奇對此表示認(rèn)同。他表示,“英文是偏結(jié)構(gòu)化的語言,而中文是自由的線性語言”,因此中文在信息處理上有一些“特有”的難題,比如自動分詞、句法分析、歧義消解等。
詞是表達(dá)語義的基本單元,分詞就是將一句話或短語切分成一個一個單獨的詞語。李生以英文作比較,“英文中,單詞以空格分開,而中文詞語卻沒有形式上的分界符,也沒有形態(tài)變化,這都增加了處理的難度。”此外,在語音層面,漢語中存在大量同音字詞,又包含復(fù)雜的聲調(diào)系統(tǒng)和變音變調(diào)現(xiàn)象,這都給語音識別帶來了困難。
中國學(xué)人在努力 發(fā)展駛?cè)?ldquo;快車道”
近年來,自然語言處理研究持續(xù)走熱。統(tǒng)計數(shù)據(jù)顯示,本次年會收到的論文數(shù)量比上一屆增長了17%,為史上之最。其中,來自中國的論文數(shù)量超過總量的20%,僅次于美國。
值得一提的是,在本屆年會上,李生被授予“ACL終身成就獎”。而在此之前,百度技術(shù)副總裁王海峰于2013年1月正式出任ACL主席,成為該組織50年歷史上第一位華人主席。
“自然語言處理每個方向上都有很多優(yōu)秀的學(xué)者在努力,這也是該領(lǐng)域可以愈發(fā)繁榮的原因。”李生表示,這些年中國的自然語言處理發(fā)展很快,在中文處理上已經(jīng)走在了世界前列。
據(jù)趙世奇介紹,10年前能在ACL這類頂級國際會議上發(fā)表論文的中國學(xué)者還屈指可數(shù)。“10年間,中國在自然語言處理的各個方向上都取得了非常顯著的發(fā)展,無論是研究水平,還是研究人員和學(xué)生的能力,都是今非昔比。”