The pen was in the box.
這句話很好理解,如果讓計(jì)算機(jī)理解它,做一個(gè)簡(jiǎn)單的語法分析即可。但是另一句話語法相同的話:
The box was in the pen.
就讓人頗為費(fèi)解了。原來,在英語中,Pen還有另外一個(gè)不太常用的意思--小孩玩耍的圍欄。在這里,理解成這個(gè)意思整個(gè)句子就通順了。但是,如果用同樣的語法分析,這兩句話會(huì)得到相同的語法分析樹,而僅僅根據(jù)這兩句話本身,是無法判定pen在哪一句話中應(yīng)該作為圍欄,哪一句話應(yīng)該是鋼筆的意思。事實(shí)上,人對(duì)這兩句話的理解并非來源于語法分析和語意本身,而來自于他們的常識(shí),或者說關(guān)于世界的知識(shí)(World Knowledge),這個(gè)問題是傳統(tǒng)的人工智能方法解決不了的。因此,明斯基給出了他的結(jié)論,“目前”(指當(dāng)時(shí))的方法無法讓計(jì)算機(jī)真正有類似人的智能。由于明斯基在計(jì)算機(jī)科學(xué)界崇高的聲望,他的這篇論文導(dǎo)致了美國(guó)政府削減了幾乎全部人工智能研究的經(jīng)費(fèi)。在機(jī)器智能的發(fā)展史上,賈里尼克是一個(gè)劃時(shí)代的人物。1972年,當(dāng)時(shí)還是康奈爾大學(xué)教授的賈里尼克來到IBM沃森實(shí)驗(yàn)室進(jìn)行學(xué)術(shù)休假,并且擔(dān)任起IBM研制智能計(jì)算機(jī)的工作。賈里尼克于是挑選了一個(gè)他認(rèn)為最有可能突破的課題,即語音識(shí)別。
賈里尼克從來不是真正的計(jì)算機(jī)科學(xué)家,而他的專長(zhǎng)是信息論和通信,因此他看待語音識(shí)別問題完全不同于人工智能的專家們--在他看來這是一個(gè)通信問題。人的大腦是一個(gè)信息源,從思考到合適的語句,再通過發(fā)音說出來,是一個(gè)編碼的過程,經(jīng)過媒介(空氣或者電話線)傳播到聽眾耳朵里,是經(jīng)過了一個(gè)長(zhǎng)長(zhǎng)的信道的信息傳播問題,最后聽話人把它聽懂,是一個(gè)解碼的過程。既然是一個(gè)典型的通信問題,就可以用解決通信問題的方法來解決,為此賈里尼克用兩個(gè)馬爾可夫模型分別描述信源和信道。當(dāng)然,為了訓(xùn)練和使用這兩個(gè)馬爾可夫模型,就需要使用大量的數(shù)據(jù)。采用馬爾可夫模型,IBM 將當(dāng)時(shí)的語音識(shí)別率從70%左右提高到90%以上,同時(shí)語音識(shí)別的規(guī)模從幾百詞上升到兩萬多詞 (Jelinek, 1976),這樣,語音識(shí)別就能夠從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用。 賈里尼克和他的同事在無意中開創(chuàng)了一種采用統(tǒng)計(jì)的方法解決智能問題的途徑,因?yàn)檫@種方法需要使用大量的數(shù)據(jù),因此它又被稱為是數(shù)據(jù)驅(qū)動(dòng)的方法。
賈里尼克的同事彼得?布朗在1980年代,將這種數(shù)據(jù)驅(qū)動(dòng)的方法用于了機(jī)器翻譯 (P.F. Brown, 1990)。由于缺乏數(shù)據(jù),最初的翻譯結(jié)果并不令人滿意,雖然一些學(xué)者認(rèn)可這種方法,但是其他學(xué)者,尤其是早期從事這項(xiàng)工作的學(xué)者認(rèn)為,解決機(jī)器翻譯這樣智能的問題,光靠基于數(shù)據(jù)的統(tǒng)計(jì)是不夠的。因此,當(dāng)時(shí)SysTran等公司依然在組織大量的人力,寫機(jī)器翻譯使用的語法規(guī)則。
如果說在1980年代還看不清楚布朗的方法和傳統(tǒng)的人工智能的方法哪一個(gè)更適合計(jì)算機(jī)解決機(jī)器智能問題的話,那么在1990年代以后,數(shù)據(jù)的優(yōu)勢(shì)就凸顯出來了。從1990年代中期之后的10年里,語音識(shí)別的錯(cuò)誤率減少了一半,而機(jī)器翻譯的準(zhǔn)確性提高了一倍,其中20%左右的貢獻(xiàn)來自于方法的改進(jìn),而80%則來自于數(shù)據(jù)量的提升。當(dāng)然,這背后的一個(gè)原因是,由于互聯(lián)網(wǎng)的普及,可使用的數(shù)據(jù)量呈指數(shù)增長(zhǎng)。
最能夠說明數(shù)據(jù)對(duì)解決機(jī)器翻譯等智能問題的幫助的,是2005年NIST對(duì)全世界各家機(jī)器翻譯系統(tǒng)評(píng)測(cè)的結(jié)果。
這一年,之前沒有做過機(jī)器翻譯的Google,不僅一舉奪得了各項(xiàng)評(píng)比的第一名,而且將其它單位的系統(tǒng)遠(yuǎn)遠(yuǎn)拋在了后面。比如在阿拉伯語到英語翻譯的封閉集測(cè)試中,Google系統(tǒng)的BLEU評(píng)分為51.31%,領(lǐng)先第二名將近 5%,而提高這五個(gè)百分點(diǎn)在過去需要研究7—10年;在開放集的測(cè)試中,Google51.37%的得分比第二名領(lǐng)先了17%,可以說整整領(lǐng)先了一代人的水平。當(dāng)然,大家能想到的原因是它請(qǐng)到了世界著名的機(jī)器翻譯專家弗朗茲·奧科(Franz Och),但是參加評(píng)測(cè)的南加州大學(xué)系統(tǒng)和德國(guó)亞琛工學(xué)院系統(tǒng)也是奧科寫的姊妹系統(tǒng)。從奧科在Google開始工作到提交評(píng)比結(jié)果,中間其實(shí)只有半年多的時(shí)間,奧科在方法上沒有做任何改進(jìn)。Google系統(tǒng)和之前的兩個(gè)系統(tǒng)唯一的不同之處在于,前者使用了后者近萬倍的數(shù)據(jù)量。
下表是2005年NIST評(píng)比的結(jié)果。值得一提的是,SysTran公司的系統(tǒng)是唯一采用傳統(tǒng)的語法規(guī)則進(jìn)行機(jī)器翻譯的。它和那些采用數(shù)據(jù)驅(qū)動(dòng)的系統(tǒng)相比,差距之大已經(jīng)不在一個(gè)時(shí)代了。
從阿拉伯語到英語的翻譯 (封閉集)