日前,美國(guó)一家公司宣稱專業(yè)速記員在記錄對(duì)話時(shí),轉(zhuǎn)錄詞錯(cuò)率為5.1%,而該公司最新研發(fā)的語(yǔ)音識(shí)別系統(tǒng)詞錯(cuò)率已達(dá)到5.5%,超越之前的歷史最佳水平,樹立了新的里程碑。語(yǔ)音識(shí)別,是人工智能領(lǐng)域的核心問題之一,0.4%的差距似乎意味著機(jī)器即將比肩人類。
已過“甲子”之年
斯坦福大學(xué)的相關(guān)研究者在2016年9月發(fā)布了一篇名為《2030年的人工智能與生活》的文章,提到:人工智能領(lǐng)域正式誕生于1956年夏天,一場(chǎng)由約翰·麥卡錫組織的在美國(guó)達(dá)特茅斯暑期研究項(xiàng)目的研討會(huì),在多年以后被認(rèn)定為全球人工智能研究的起點(diǎn)。
其實(shí),對(duì)于人工智能子項(xiàng)目之一的語(yǔ)音識(shí)別來(lái)說(shuō),它的歷史甚至比60年還要久。
語(yǔ)音識(shí)別的研究源頭可追溯至1950年,計(jì)算機(jī)科學(xué)之父阿蘭·圖靈在《思想》(Mind)雜志上發(fā)表了題為“計(jì)算的機(jī)器和智能”的論文,首次提出了機(jī)器智能的概念,論文還提出了一種驗(yàn)證機(jī)器是否有智能的方法:讓人和機(jī)器進(jìn)行交流,如果人無(wú)法判斷自己交流的對(duì)象是人還是機(jī)器,就說(shuō)明這個(gè)機(jī)器有智能了,這就是后來(lái)鼎鼎有名的人工智能圖靈測(cè)試。
圖靈測(cè)試的概念極大影響了人工智能對(duì)于功能的定義,以此為途徑,卡內(nèi)基梅隆大學(xué)的兩位科學(xué)家希爾伯特·西蒙和曼紐爾·布盧姆做了大量的前期工作,非常精妙地證明了羅素《數(shù)學(xué)原理》52道中的38道。西蒙甚至宣稱在10年之內(nèi),機(jī)器就可以達(dá)到和人類智能一樣的高度。
在這一時(shí)期,科學(xué)家們也將語(yǔ)音識(shí)別比作“機(jī)器的聽覺系統(tǒng)”,該技術(shù)可以讓機(jī)器通過識(shí)別和理解,把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。1952年,貝爾研究所、Davis等人研制了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。1960年,英國(guó)的Denes等人研制了第一個(gè)計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)。
從“模擬”人腦到開創(chuàng)統(tǒng)計(jì)方法
當(dāng)20世紀(jì)50年代明確了人工智能要模擬人類智慧這一大膽目標(biāo)后,這一領(lǐng)域經(jīng)歷了近20年的輝煌。研究人員開展了一系列項(xiàng)目,表明計(jì)算機(jī)能夠完成一系列原本只屬于人類能力范疇之內(nèi)的任務(wù),例如證明定理、求解微積分、通過規(guī)劃來(lái)響應(yīng)命令、履行物理動(dòng)作,甚至是模擬心理學(xué)家心理實(shí)驗(yàn)、作曲家譜曲這樣的活動(dòng)。
但是,過分簡(jiǎn)單的算法以及計(jì)算能力的限制,嚴(yán)重阻礙了人們使用人工智能來(lái)解決更加困難和多樣化的問題。
這一階段在人工智能的細(xì)分領(lǐng)域語(yǔ)音識(shí)別上,科學(xué)家們也走上了同樣的彎路。他們認(rèn)為,計(jì)算機(jī)要完成語(yǔ)音識(shí)別這類只有人才能做的事情,必須先讓計(jì)算機(jī)理解自然語(yǔ)言,導(dǎo)致研究局限在人類學(xué)習(xí)語(yǔ)言的方式上了,即電腦模擬人腦,語(yǔ)言學(xué)者參與了大量的研究工作,但最后的成果卻近乎為零。伴隨著對(duì)未來(lái)繼續(xù)努力的失望,人工智能包括語(yǔ)音識(shí)別都于20世紀(jì)70年代中期逐漸淡出公眾視野。
轉(zhuǎn)機(jī)出現(xiàn)在統(tǒng)計(jì)語(yǔ)言學(xué)的創(chuàng)立上。這不得不提一個(gè)關(guān)鍵性人物——德里克·賈里尼克和他領(lǐng)導(dǎo)的IBM華生實(shí)驗(yàn)室,他們創(chuàng)新的使用統(tǒng)計(jì)方法,將當(dāng)時(shí)的語(yǔ)音識(shí)別率從70%迅速提升到90%,同時(shí)語(yǔ)音識(shí)別的規(guī)模從幾百個(gè)單詞上升到幾萬(wàn)個(gè)單詞,使得語(yǔ)音識(shí)別就有了從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用的可能。
在賈里尼克之前,科學(xué)家們都把語(yǔ)音識(shí)別問題的核心歸結(jié)為語(yǔ)言學(xué)中的規(guī)則問題,而賈里尼克將它當(dāng)作通信問題后,用兩個(gè)隱含馬爾可夫模型(聲學(xué)模型和語(yǔ)言模型)把語(yǔ)音識(shí)別重新概括清楚了。
這個(gè)框架結(jié)構(gòu)至今仍對(duì)語(yǔ)音識(shí)別影響深遠(yuǎn),它不僅從根本上使得語(yǔ)音識(shí)別有使用的可能,而且奠定了今天自然語(yǔ)言處理的基礎(chǔ)。賈里尼克后來(lái)也因此當(dāng)選美國(guó)工程院院士,并被某雜志評(píng)為20世紀(jì)100名發(fā)明家之一。
盡管賈里尼克在1972年就提出了新的研究范式,但模擬人腦與統(tǒng)計(jì)學(xué)的方法之爭(zhēng),卻持續(xù)了近十五年時(shí)間,語(yǔ)音識(shí)別領(lǐng)域歷經(jīng)了十五年的新舊交替后,最大的成果其實(shí)是在技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了進(jìn)展。
大進(jìn)步的催化劑
在互聯(lián)網(wǎng)大爆發(fā)的20世紀(jì)90年代,人工智能的相關(guān)研究又一次停滯了。直到21世紀(jì)前10年,出現(xiàn)了一系列復(fù)興人工智能研究進(jìn)程的要素,尤其是下面這些重要的因素和核心技術(shù):