文|劉知遠(yuǎn)
前幾年曾經(jīng)馬少平老師的引薦,為某科普?qǐng)D書(shū)寫(xiě)過(guò)一篇短文介紹自然語(yǔ)言處理。如果只是介紹NLP的概念、任務(wù)和挑戰(zhàn),應(yīng)該可以參考這篇小文。原文如下,僅供參考。
自然語(yǔ)言處理
Natural Language Processing
一、什么是自然語(yǔ)言處理
簡(jiǎn)單地說(shuō),自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱(chēng)NLP)就是用計(jì)算機(jī)來(lái)處理、理解以及運(yùn)用人類(lèi)語(yǔ)言(如中文、英文等),它屬于人工智能的一個(gè)分支,是計(jì)算機(jī)科學(xué)與語(yǔ)言學(xué)的交叉學(xué)科,又常被稱(chēng)為計(jì)算語(yǔ)言學(xué)。由于自然語(yǔ)言是人類(lèi)區(qū)別于其他動(dòng)物的根本標(biāo)志。沒(méi)有語(yǔ)言,人類(lèi)的思維也就無(wú)從談起,所以自然語(yǔ)言處理體現(xiàn)了人工智能的最高任務(wù)與境界,也就是說(shuō),只有當(dāng)計(jì)算機(jī)具備了處理自然語(yǔ)言的能力時(shí),機(jī)器才算實(shí)現(xiàn)了真正的智能。
從研究?jī)?nèi)容來(lái)看,自然語(yǔ)言處理包括語(yǔ)法分析、語(yǔ)義分析、篇章理解等。從應(yīng)用角度來(lái)看,自然語(yǔ)言處理具有廣泛的應(yīng)用前景。特別是在信息時(shí)代,自然語(yǔ)言處理的應(yīng)用包羅萬(wàn)象,例如:機(jī)器翻譯、手寫(xiě)體和印刷體字符識(shí)別、語(yǔ)音識(shí)別及文語(yǔ)轉(zhuǎn)換、信息檢索、信息抽取與過(guò)濾、文本分類(lèi)與聚類(lèi)、輿情分析和觀點(diǎn)挖掘等,它涉及與語(yǔ)言處理相關(guān)的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、知識(shí)獲取、知識(shí)工程、人工智能研究和與語(yǔ)言計(jì)算相關(guān)的語(yǔ)言學(xué)研究等。
值得一提的是,自然語(yǔ)言處理的興起與機(jī)器翻譯這一具體任務(wù)有著密切聯(lián)系。機(jī)器翻譯指的是利用計(jì)算機(jī)自動(dòng)地將一種自然語(yǔ)言翻譯為另外一種自然語(yǔ)言。例如自動(dòng)將英文“I like Beijing Tiananmen Square”翻譯為“我愛(ài)北京天安門(mén)”,或者反過(guò)來(lái)將“我愛(ài)北京天安門(mén)”翻譯為“I like Beijing Tiananmen Square”。由于人工進(jìn)行翻譯需要訓(xùn)練有素的雙語(yǔ)專(zhuān)家,翻譯工作非常耗時(shí)耗力。更不用說(shuō)需要翻譯一些專(zhuān)業(yè)領(lǐng)域文獻(xiàn)時(shí),還需要翻譯者了解該領(lǐng)域的基本知識(shí)。世界上有超過(guò)幾千種語(yǔ)言,而僅聯(lián)合國(guó)的工作語(yǔ)言就有六種之多。如果能夠通過(guò)機(jī)器翻譯準(zhǔn)確地進(jìn)行語(yǔ)言間的翻譯,將大大提高人類(lèi)溝通和了解的效率。
《圣經(jīng)》里有一個(gè)故事說(shuō)巴比倫人想建造一座塔直通天堂。建塔的人都說(shuō)著同一種語(yǔ)言,心意相通、齊心協(xié)力。上帝看到人類(lèi)竟然敢做這種事情,就讓他們的語(yǔ)言變得不一樣。因?yàn)槿藗兟?tīng)不懂對(duì)方在講什么,于是大家整天吵吵鬧鬧,無(wú)法繼續(xù)建塔。后來(lái)人們把這座塔叫作巴別塔,而“巴別”的意思就是“分歧”。雖然巴別塔停建了,但一個(gè)夢(mèng)想?yún)s始終縈繞在人們心中:人類(lèi)什么時(shí)候才能擁有相通的語(yǔ)言,重建巴別塔呢?機(jī)器翻譯被視為“重建巴別塔”的偉大創(chuàng)舉。假如能夠?qū)崿F(xiàn)不同語(yǔ)言之間的機(jī)器翻譯,我們就可以理解世界上任何人說(shuō)的話,與他們進(jìn)行交流和溝通,再也不必為相互不能理解而困擾。
事實(shí)上,“人工智能”被作為一個(gè)研究問(wèn)題正式提出來(lái)的時(shí)候,創(chuàng)始人把計(jì)算機(jī)國(guó)際象棋和機(jī)器翻譯作為兩個(gè)標(biāo)志性的任務(wù),認(rèn)為只要國(guó)際象棋系統(tǒng)能夠打敗人類(lèi)世界冠軍,機(jī)器翻譯系統(tǒng)達(dá)到人類(lèi)翻譯水平,就可以宣告人工智能的勝利。四十年后的1997年,IBM公司的深藍(lán)超級(jí)計(jì)算機(jī)已經(jīng)能夠打敗國(guó)際象棋世界冠軍卡斯帕羅夫。而機(jī)器翻譯到現(xiàn)在仍無(wú)法與人類(lèi)翻譯水平相比,從此可以看出自然語(yǔ)言處理有多么困難!
自然語(yǔ)言處理興起于美國(guó)。第二次世界大戰(zhàn)之后,二十世紀(jì)五十年代,當(dāng)電子計(jì)算機(jī)還在襁褓之中時(shí),利用計(jì)算機(jī)處理人類(lèi)語(yǔ)言的想法就已經(jīng)出現(xiàn)。當(dāng)時(shí),美國(guó)希望能夠利用計(jì)算機(jī)將大量俄語(yǔ)材料自動(dòng)翻譯成英語(yǔ),以窺探蘇聯(lián)科技的最新發(fā)展。研究者從破譯軍事密碼中得到啟示,認(rèn)為不同的語(yǔ)言只不過(guò)是對(duì)“同一語(yǔ)義”的不同編碼而已,從而想當(dāng)然地認(rèn)為可以采用譯碼技術(shù)像破譯密碼一樣“破譯”這些語(yǔ)言。
1954年1月7日,美國(guó)喬治敦大學(xué)和IBM公司合作實(shí)驗(yàn)成功地將超過(guò)60句俄語(yǔ)自動(dòng)翻譯成英語(yǔ)。雖然當(dāng)時(shí)的這個(gè)機(jī)器翻譯系統(tǒng)非常簡(jiǎn)單,僅僅包含6個(gè)語(yǔ)法規(guī)則和250個(gè)詞,但由于媒體的廣泛報(bào)道,紛紛認(rèn)為這是一個(gè)巨大的進(jìn)步,導(dǎo)致美國(guó)政府備受鼓舞,加大了對(duì)自然語(yǔ)言處理研究的投資。實(shí)驗(yàn)完成者也當(dāng)即自信地撰文稱(chēng),在三到五年之內(nèi)就能夠完全解決從一種語(yǔ)言到另一種語(yǔ)言的自動(dòng)翻譯問(wèn)題。他們認(rèn)為只要制定好各種翻譯規(guī)則,通過(guò)大量規(guī)則的堆砌就能夠完美地實(shí)現(xiàn)語(yǔ)言間的自動(dòng)翻譯。