我們來看一下這個(gè)案例。
【播放語音識(shí)別技術(shù)演示視頻】
大家看到,在剛才的過程中,百度大腦一直在實(shí)時(shí)地識(shí)別雙方的對(duì)話,尤其是從電話里面?zhèn)鞒鰜淼穆曇?,有的時(shí)候并不是那么清晰,對(duì)于人來說要完全聽清楚每一個(gè)字其實(shí)都是有一定難度的,但百度大腦的語音識(shí)別能力已經(jīng)可以做到非常精準(zhǔn),并且可以根據(jù)用戶的問題、實(shí)時(shí)推薦下一步的工作要怎樣應(yīng)對(duì),這是一個(gè)語音識(shí)別應(yīng)用在企業(yè)日常運(yùn)作中的一個(gè)例子,就像我剛才講的,應(yīng)該還有很多很多應(yīng)用場(chǎng)景,大家可以根據(jù)自己的背景去想象。
語音識(shí)別是一方面,語音合成又是另外一個(gè)方面。語音合成是什么意思呢?就是機(jī)器可以把文字轉(zhuǎn)換成語音,把它念出來、讀出來。今天的語音合成也有了和過去非常不一樣的體驗(yàn),最主要的就是,它可以用比較自然的人的聲音讀出來,而不是像過去機(jī)器一樣,每一個(gè)字之間的停頓都是一樣長(zhǎng),是勻速的、沒有表情的。這樣的自然體驗(yàn),當(dāng)然對(duì)于用戶的黏性來說也是有很大的作用。
現(xiàn)在,百度每天要響應(yīng)2.5億次的語音合成請(qǐng)求,這些請(qǐng)求用來干什么呢?比如說,過去人們看小說,今天可以在手機(jī)百度里面聽小說。慢慢的人們聽小說的時(shí)間也更長(zhǎng)了,過去每個(gè)人平均在小說頻道會(huì)花大概四十分鐘左右的時(shí)間,現(xiàn)在要花將近兩個(gè)半小時(shí),就是因?yàn)榘延?jì)算機(jī)合成出來的語音讀出來給我們聽,確實(shí)是一個(gè)很不錯(cuò)的體驗(yàn),甚至是一種享受。那么這種讀出來的小說,和我們平時(shí)聽到的廣播有什么本質(zhì)上的不一樣?其實(shí)非常不一樣。廣播是每一個(gè)人聽到的東西是一模一樣的,而今天的語音合成,它可以做到每一個(gè)人聽到的東西都是不一樣的,完全根據(jù)你個(gè)人的需求進(jìn)行定制,這就是為什么它的(用戶)黏性會(huì)很高,它能夠具備自然發(fā)聲的能力。不僅如此,其實(shí)我們可以想象一下,它如果能夠模擬一個(gè)自然人的表達(dá)方式或發(fā)聲能力,它就可以模擬任何一個(gè)你喜歡的人的說話方式。
不知道有沒有人注意到,百度地圖里導(dǎo)航功能就是用語音來進(jìn)行的,其中有一個(gè)選項(xiàng)可以用我的聲音進(jìn)行導(dǎo)航。其實(shí)導(dǎo)航的那些話我并沒有說過,機(jī)器只是根據(jù)我平時(shí)說話的情況合成了一個(gè)李彥宏的聲音。這樣的聲音不僅在我身上可以做到,在很多其他人身上也可以做到。
我們現(xiàn)在來給大家展示一個(gè)合成的聲音。我們合成了一下13年前已經(jīng)去世的張國榮的聲音,我們來放一段video。
【播放情感語音合成視頻】
為什么給大家展示這個(gè)呢?一方面我知道,很多人是張國榮的粉絲,另一方面,其實(shí)合成張國榮的聲音比合成一般人的聲音要更難。為什么呢?因?yàn)樗膰Z語料相對(duì)來說比較少,所以,我們能夠合成他的聲音,就一定能合成很多很多人的聲音。
對(duì)于百度來說,百度大腦的語音合成能力可以讓每個(gè)人都有自己的聲音模型,你只要按照我們的要求說50句話,我就學(xué)會(huì)了你說話的方式。當(dāng)你擁有自己的合成聲音之后,比如說家里的老人想經(jīng)常聽你說一說,你把這個(gè)聲音合成出來讓他聽就好了?;蛘哒f你平時(shí)要加班,小孩睡覺之前想聽個(gè)故事,你合成自己的聲音給孩子講一遍這個(gè)故事,聽起來也會(huì)很親切。所以大家可以看到,這些語音的能力會(huì)帶來各種各樣新的可能性。
下面我給大家講一下圖像。用一個(gè)比較專業(yè)的術(shù)語來講,我們叫做計(jì)算機(jī)視覺。這也是現(xiàn)在廣義的人工智能中非常重要的領(lǐng)域。說到圖像的識(shí)別,我想大家自然而然會(huì)反應(yīng)出來一個(gè)什么應(yīng)用呢?應(yīng)該就是我們通常講的人臉識(shí)別的應(yīng)用。人臉識(shí)別的準(zhǔn)確率今天已經(jīng)達(dá)到了99.7%,已經(jīng)非常非常準(zhǔn)確了。現(xiàn)場(chǎng)的屏幕能夠識(shí)別出來我們一些嘉賓,根據(jù)他們的人臉,我們知道這個(gè)人是誰,這個(gè)準(zhǔn)確率已經(jīng)比較高了。剛才進(jìn)來的時(shí)候,大家也可以看到一些人臉識(shí)別的展臺(tái),我們是可以識(shí)別很多很多人的面孔的。
那么,人臉識(shí)別這個(gè)技術(shù)是怎么實(shí)現(xiàn)的?我們要對(duì)人臉的特征提取它的關(guān)鍵點(diǎn),把這些點(diǎn)打出來之后要做一些處理,把它連成一個(gè)面部表情,據(jù)此來識(shí)別這樣一個(gè)人。這就使得當(dāng)一個(gè)人的表情發(fā)生變化的時(shí)候,我們?nèi)匀荒軌蜃R(shí)別出來這個(gè)特點(diǎn)是沒有發(fā)生變化的,比如他在哭,他在笑,他在憤怒,他在迷茫,他的表情是不一樣的,但是他的表情特征是不變的,所以我們?nèi)匀豢梢院軠?zhǔn)確地識(shí)別出這樣一個(gè)人。