當(dāng)我們欣賞《星球大戰(zhàn)》津津有味的時(shí)侯,科學(xué)家一說(shuō)“沒有外星人”,這事情就不好玩了。可是沒辦法~,科學(xué)就是科學(xué)。作為自然語(yǔ)言處理專家,我不得不給大家掃掃興:未來(lái)的機(jī)器人,恐怕還是不會(huì)說(shuō)話,因此我們識(shí)別機(jī)器人的一大法寶可以是:語(yǔ)言。
人們常常有個(gè)感覺,認(rèn)為說(shuō)話是個(gè)很簡(jiǎn)單的事情,其實(shí)不然。“人類最難做到的,計(jì)算機(jī)比較容易做到,比如大型計(jì)算;而人類最容易做到的,計(jì)算機(jī)最難做到,比如我們每個(gè)人都會(huì)說(shuō)話、聽人說(shuō)話,連沒受過(guò)教育的文盲也會(huì),然而計(jì)算機(jī)到現(xiàn)在也教不會(huì)它語(yǔ)言這個(gè)技能。”
其實(shí)早在計(jì)算機(jī)誕生之初,人們就開始了用計(jì)算機(jī)處理語(yǔ)言的工程,人們以為,我們平時(shí)翻譯啊什么的,不就是需要一本字典嘛,要我們?nèi)祟惐诚聨装偃f(wàn)條詞條那是很難的,但是計(jì)算機(jī)擅長(zhǎng)啊,讓它記住海量?jī)?nèi)容,小菜一碟!除了讓計(jì)算機(jī)快速、大規(guī)模計(jì)算,人們認(rèn)為,讓它處理語(yǔ)言、記住海量單詞,也是它最適宜的工作之一了。
計(jì)算機(jī)誕生于美國(guó),這個(gè)自然語(yǔ)言處理一開始也是在美國(guó)搞得是轟轟烈烈,美國(guó)投入大量金錢和人才來(lái)做這件事情。然而幾年下來(lái),現(xiàn)實(shí)離人們的想象越來(lái)越遠(yuǎn)。在許多大型項(xiàng)目以無(wú)果而終之后,終于有一紙報(bào)告遞到國(guó)會(huì),詳細(xì)說(shuō)明為何自然語(yǔ)言處理是實(shí)現(xiàn)不了的。這本報(bào)告書結(jié)束了美國(guó)的自然語(yǔ)言處理夢(mèng),也讓全世界的自然語(yǔ)言處理陷入了長(zhǎng)期的低迷。
為什么自然語(yǔ)言處理實(shí)現(xiàn)不了?
因?yàn)楫?dāng)你把整個(gè)字典都搬到計(jì)算機(jī)里面之后,你會(huì)發(fā)現(xiàn),計(jì)算機(jī)不會(huì)使用這些詞條。而如何讓它會(huì)使用這些詞條?——沒有辦法。人類在使用字詞典時(shí),其實(shí)是靠著人類對(duì)于語(yǔ)言的理解的,而計(jì)算機(jī)不具有這些理解,所以它不會(huì)使用。
我們都覺得翻譯時(shí),不過(guò)是看到一個(gè)單詞、就拿頭腦中背過(guò)的那個(gè)意思填上就是了,然而當(dāng)計(jì)算機(jī)這么做時(shí),我們看到的翻譯結(jié)果,卻是匪夷所思,通篇竟然沒有幾個(gè)“人模人樣”的句子!更不要說(shuō)翻譯符合原意的事情了。追其原因,是我們?cè)谔罘g詞時(shí),其實(shí)是在從許多可能的意思中,選擇一個(gè)最合適的——這個(gè)工作讓計(jì)算機(jī)來(lái)做,每個(gè)詞對(duì)應(yīng)幾十個(gè)詞,它該如何選擇?什么是“最合適的”原則?不知道。因?yàn)槲覀儗?duì)于我們自己的這些規(guī)則并不清楚,所以我們也無(wú)法去教計(jì)算機(jī)這些規(guī)則。
為了讓計(jì)算機(jī)具有人一樣的判斷能力,有人自然而然地想到把整個(gè)世界的知識(shí)體系搬到計(jì)算機(jī)里去,這樣計(jì)算機(jī)就具有人一樣的知識(shí)背景......。這個(gè)工作引起了全世界許多國(guó)家的熱情,經(jīng)過(guò)多年不懈的努力,結(jié)局卻是大失所望。終于有人寫論文論證了語(yǔ)義網(wǎng)絡(luò)是理論上就不可能實(shí)現(xiàn)的(這個(gè)語(yǔ)義網(wǎng)絡(luò)和現(xiàn)在流行的“語(yǔ)義網(wǎng)絡(luò)”不是一回事兒,以前的語(yǔ)義網(wǎng)絡(luò)這個(gè)詞,指的是一個(gè)巨型知識(shí)庫(kù)、存儲(chǔ)著人類的全總知識(shí))。
為什么說(shuō)“語(yǔ)義網(wǎng)絡(luò)”這樣的全總知識(shí)庫(kù)從理論上就是不可實(shí)現(xiàn)的呢?原因很簡(jiǎn)單,我們?cè)诂F(xiàn)實(shí)生活中,常常是在這件事情上采用一個(gè)標(biāo)準(zhǔn)、一種邏輯,而在另一件事情上,我們又會(huì)采用另一個(gè)標(biāo)準(zhǔn)、另一種邏輯,這在我們生活中一點(diǎn)問(wèn)題也沒有,但是讓計(jì)算機(jī)把這些知識(shí)裝在一起,那就存在著許多自相矛盾的邏輯命題,這樣的邏輯體系,如何能夠做事情?
人類這個(gè)裝滿了矛盾知識(shí)的大腦,就能夠游刃有余、毫不費(fèi)力地解決生活中的事情,真不知人類是怎么搞的?不知道怎么教計(jì)算機(jī)也學(xué)會(huì)這個(gè)。唉~
他們說(shuō)的、“從理論上不可行”——指的就是:一個(gè)不符合排中律的邏輯系統(tǒng),從理論上來(lái)說(shuō),沒有能力處理我們的這個(gè)世界。
上面說(shuō)了這么多,可以簡(jiǎn)而言之一句話:只是靠建立大型數(shù)據(jù)庫(kù),是無(wú)法從根本上突破自然語(yǔ)言處理的問(wèn)題的,必須首先了解人類的認(rèn)知原理。
遺憾的是對(duì)于人類認(rèn)知,我們幾乎一無(wú)所知。
我們就生活在我們自己的認(rèn)知中,比如,我的這篇小文,也是靠著我自己的認(rèn)知功能來(lái)完成的。那么請(qǐng)問(wèn):我們?cè)谖覀冏约旱恼J(rèn)知之中、不能脫離我們的認(rèn)知而觀察,那么如何實(shí)現(xiàn)“以已之矛、攻已之盾”呢?這不是矛盾嗎?
有句古詩(shī):“不識(shí)廬山真面目,只緣身在此山中”。假設(shè)一個(gè)人從未走出過(guò)廬山,你讓他說(shuō)出廬山是什么,他是說(shuō)不了的,只有當(dāng)他曾經(jīng)去過(guò)別的山,經(jīng)過(guò)對(duì)比,他才能說(shuō)出個(gè)一二三來(lái)。
因?yàn)槲覀內(nèi)祟惖乃兄腔鄱际窃谖覀冏约旱恼J(rèn)知系統(tǒng)之中、從未脫離也不可能脫離,所以從理論上來(lái)說(shuō),我們永遠(yuǎn)不可能對(duì)于我們自己的認(rèn)知系統(tǒng)有著百分之百的了解。