從上面的兩個方面的主要困難,我們看到自然語言處理這個難題的根源就是人類語言的復雜性和語言描述的外部世界的復雜性。人類語言承擔著人類表達情感、交流思想、傳播知識等重要功能,因此需要具備強大的靈活性和表達能力,而理解語言所需要的知識又是無止境的。那么目前人們是如何嘗試進行自然語言處理的呢?
三、自然語言處理的發(fā)展趨勢
目前,人們主要通過兩種思路來進行自然語言處理,一種是基于規(guī)則的理性主義,另外一種是基于統(tǒng)計的經(jīng)驗主義。理性主義方法認為,人類語言主要是由語言規(guī)則來產(chǎn)生和描述的,因此只要能夠用適當?shù)男问綄⑷祟愓Z言規(guī)則表示出來,就能夠理解人類語言,并實現(xiàn)語言之間的翻譯等各種自然語言處理任務。而經(jīng)驗主義方法則認為,從語言數(shù)據(jù)中獲取語言統(tǒng)計知識,有效建立語言的統(tǒng)計模型。因此只要能夠有足夠多的用于統(tǒng)計的語言數(shù)據(jù),就能夠理解人類語言。然而,當面對現(xiàn)實世界充滿模糊與不確定性時,這兩種方法都面臨著各自無法解決的問題。例如,人類語言雖然有一定的規(guī)則,但是在真實使用中往往伴隨大量的噪音和不規(guī)范性。理性主義方法的一大弱點就是魯棒性差,只要與規(guī)則稍有偏離便無法處理。而對于經(jīng)驗主義方法而言,又不能無限地獲取語言數(shù)據(jù)進行統(tǒng)計學習,因此也不能夠完美地理解人類語言。二十世紀八十年代以來的趨勢就是,基于語言規(guī)則的理性主義方法不斷受到質(zhì)疑,大規(guī)模語言數(shù)據(jù)處理成為目前和未來一段時期內(nèi)自然語言處理的主要研究目標。統(tǒng)計學習方法越來越受到重視,自然語言處理中越來越多地使用機器自動學習的方法來獲取語言知識。
邁進二十一世紀,我們已經(jīng)進入了以互聯(lián)網(wǎng)為主要標志的海量信息時代,這些海量信息大部分是以自然語言表示的。一方面,海量信息也為計算機學習人類語言提供了更多的“素材”,另一方面,這也為自然語言處理提供了更加寬廣的應用舞臺。例如,作為自然語言處理的重要應用,搜索引擎逐漸成為人們獲取信息的重要工具,涌現(xiàn)出以百度、谷歌等為代表的搜索引擎巨頭;機器翻譯也從實驗室走入尋常百姓家,谷歌、百度等公司都提供了基于海量網(wǎng)絡數(shù)據(jù)的機器翻譯和輔助翻譯工具;基于自然語言處理的中文(輸入法如搜狗、微軟、谷歌等輸入法)成為計算機用戶的必備工具;帶有語音識別的計算機和手機也正大行其道,協(xié)助用戶更有效地工作學習??傊?,隨著互聯(lián)網(wǎng)的普及和海量信息的涌現(xiàn),自然語言處理正在人們的日常生活中扮演著越來越重要的作用。
然而,我們同時面臨著一個嚴峻事實,那就是如何有效利用海量信息已成為制約信息技術發(fā)展的一個全局性瓶頸問題。自然語言處理無可避免地成為信息科學技術中長期發(fā)展的一個新的戰(zhàn)略制高點。同時,人們逐漸意識到,單純依靠統(tǒng)計方法已經(jīng)無法快速有效地從海量數(shù)據(jù)中學習語言知識,只有同時充分發(fā)揮基于規(guī)則的理性主義方法和基于統(tǒng)計的經(jīng)驗主義方法的各自優(yōu)勢,兩者互相補充,才能夠更好、更快地進行自然語言處理。
自然語言處理作為一個年齡尚不足一個世紀的新興學科,正在進行著突飛猛進的發(fā)展?;仡欁匀徽Z言處理的發(fā)展歷程,并不是一帆風順,有過低谷,也有過高潮。而現(xiàn)在我們正面臨著新的挑戰(zhàn)和機遇。例如,目前網(wǎng)絡搜索引擎基本上還停留在關鍵詞匹配,缺乏深層次的自然語言處理和理解。語音識別、文字識別、問答系統(tǒng)、機器翻譯等目前也只能達到很基本的水平。路漫漫其修遠兮,自然語言處理作為一個高度交叉的新興學科,不論是探究自然本質(zhì)還是付諸實際應用,在將來必定會有令人期待的驚喜和異??焖俚陌l(fā)展。
參考文獻
[1] 張鈸. 自然語言處理的計算模型. 中文信息學報, 2007, 21(3):3-7.
[2] 馮志偉. 《統(tǒng)計自然語言處理》序言. 1版. 北京: 清華大學出版社, 2008.
[3] 孫茂松. 語言計算:信息科學技術中長期發(fā)展的戰(zhàn)略制高點. 語言文字應用, 2005, 3:38-40.
相關閱讀: