大數(shù)據(jù)。得益于互聯(lián)網(wǎng)、社交媒體、移動(dòng)設(shè)備和廉價(jià)的傳感器,這個(gè)世界產(chǎn)生的數(shù)據(jù)量急劇增加。大數(shù)據(jù)是人工智能發(fā)展的助推劑,這是因?yàn)橛行┤斯ぶ悄芗夹g(shù)使用統(tǒng)計(jì)模型來進(jìn)行數(shù)據(jù)的概率推算,如語音識(shí)別,通過數(shù)據(jù)的海洋中豐富的語料,使得技術(shù)不斷優(yōu)化。
新算法。算法是解決一個(gè)設(shè)計(jì)程序或完成任務(wù)的路徑方法。在一個(gè)完整的工業(yè)界語音識(shí)別系統(tǒng)里,最關(guān)鍵的是深度學(xué)習(xí)算法,還有很多工作是專業(yè)領(lǐng)域相關(guān)的算法,以及海量數(shù)據(jù)收集和工程系統(tǒng)架構(gòu)的搭建。這些算法本身很重要,同時(shí)也是其他技術(shù)的推動(dòng)者,比如機(jī)器學(xué)習(xí)算法Google的TensorFlow目前就被開源使用。
可以說,任何技術(shù)都有蓄能階段和爆發(fā)階段,人工智能包括語音識(shí)別技術(shù)的爆發(fā)都得益于以上條件。這也不難理解,從語音識(shí)別來看,它是需要經(jīng)驗(yàn)、數(shù)據(jù)和用戶反饋共同作用來提升表現(xiàn)的。需要利用用戶的反饋總結(jié)出一些特點(diǎn)。
谷歌是最早在全球范圍內(nèi)大規(guī)模使用深度學(xué)習(xí)算法的公司,也最早開創(chuàng)了用互聯(lián)網(wǎng)思維做語音識(shí)別。在這方面,科大訊飛受到谷歌的啟發(fā),迅速跟進(jìn)成為國內(nèi)第一個(gè)在商用系統(tǒng)里使用深度學(xué)習(xí)的公司。
現(xiàn)有成績(jī)和待解難題一樣多
語音識(shí)別技術(shù)已經(jīng)發(fā)展了幾十年,因?yàn)榇髷?shù)據(jù)和深度學(xué)習(xí)的應(yīng)用,這一領(lǐng)域的傳統(tǒng)強(qiáng)者成了谷歌、亞馬遜、蘋果和微軟這些美國科技巨頭,據(jù)統(tǒng)計(jì),美國至少有26家公司在開發(fā)語音識(shí)別技術(shù),而中國則有近50家公司研究這一領(lǐng)域。
盡管谷歌這些巨頭在語音識(shí)別技術(shù)上的技術(shù)積累和先發(fā)優(yōu)勢(shì)讓后來者似乎難以望其項(xiàng)背,但因?yàn)橐恍┱吆褪袌?chǎng)方面的原因,當(dāng)然也有部分原因是中文的復(fù)雜程度高于英語,所以國際巨頭的語音識(shí)別主要偏向于英語,中文領(lǐng)域的語音智能機(jī)會(huì)則留給了科大訊飛、百度、搜狗等中國公司。在國內(nèi),這些本土化產(chǎn)品更為用戶所熟知。
中文領(lǐng)域的識(shí)別難度在哪里?舉個(gè)簡(jiǎn)單的例子,魯迅《孔乙己》中的孔乙己之問:茴香豆的“茴”有幾種寫法?或者一個(gè)更有時(shí)代感的案例,如何形容物流很快?據(jù)說,在漢語里回答這個(gè)問題竟然至少有3600種說法,比如第二天就到了、物流很給力、給快遞點(diǎn)贊等不盡其詳。盡管語音識(shí)別在近些年來取得了巨大的進(jìn)步,但其實(shí)仍然還有很多的工作要做。
此外,還有確保語音識(shí)別能在更為真實(shí)生活的環(huán)境中良好地工作。這些環(huán)境包括具有很多背景噪聲的地方,比如聚會(huì)場(chǎng)所或在高速路上駕駛的時(shí)候;還有在多人交談環(huán)境中將不同的說話人區(qū)分開。
還有一個(gè)更深層次的難題是,如果需要實(shí)現(xiàn)人機(jī)對(duì)話、人機(jī)寫作,不只是需要用機(jī)器轉(zhuǎn)錄來自人類嘴巴的聲音信號(hào),更要理解人們所說的話。
從語音識(shí)別來看,下一個(gè)前沿是從識(shí)別走向理解,真正的人工智能仍然還在遙遠(yuǎn)的地平線上,在機(jī)器能理解其所聽到或看到的事物的真正含義之前,還需要很長(zhǎng)時(shí)間的工作,有很長(zhǎng)的路要走。
或許也可以說,我們正在從一個(gè)人類必須理解計(jì)算機(jī)的世界,邁向一個(gè)計(jì)算機(jī)必須理解我們的世界。亞里士多德曾說過,如果機(jī)器能干很多活,豈不能讓人類解放出來,或許這一解放的起點(diǎn)就是“理解”。