百度大腦的第二個組成部分是我們計算能力?,F(xiàn)在我們已經(jīng)使用了數(shù)十萬臺的服務(wù)器來進(jìn)行計算,而這當(dāng)中很多的服務(wù)器不是傳統(tǒng)基于CPU的服務(wù)器,而是基于GPU。早年的時候,GPU主要在游戲等領(lǐng)域使用得比較廣泛,在人工智能、尤其是深度學(xué)習(xí)起來以后,我們發(fā)現(xiàn),其實(shí)GPU特別適合人工智能的計算,尤其是深度學(xué)習(xí)的計算,一塊GPU可以頂100個CPU的計算能力。有關(guān)GPU的事情,我之后會請一位外部的嘉賓,就是NVIDIA的創(chuàng)始人和CEO黃仁勛先生,讓他給大家介紹更多有關(guān)GPU的,尤其是在人工智能領(lǐng)域應(yīng)用的情況。
百度大腦的第三部分是數(shù)據(jù)。數(shù)據(jù)也非常非常重要,而且這個數(shù)據(jù)量也是非常大的。比如說,我們已經(jīng)收集了全網(wǎng)上萬億的互聯(lián)網(wǎng)網(wǎng)頁內(nèi)容,這其中包括了很多視頻、音頻、圖像,這些數(shù)據(jù)也是數(shù)以百億級的。我們還有每天數(shù)十億次網(wǎng)民的搜索請求,而且還有每天數(shù)百億次的網(wǎng)民定位請求,就是說這個人在什么地方,這樣的請求也比大家想象得多,每天都有好幾百億次這樣的定位請求。
有了算法,有了計算能力,有了數(shù)據(jù),百度大腦就可以開始工作了。百度大腦又到底有什么樣的功能?讓我們來看一看。
我們今天想重點(diǎn)介紹的四個功能:一個是語音的能力,一個是圖像的能力,一個是自然語言理解的能力,還有一個就是用戶畫像的能力。這幾個能力雖然都是屬于人工智能中比較典型的應(yīng)用,但是它的發(fā)展階段也是很不一樣的。比如說語音,現(xiàn)在就已經(jīng)進(jìn)入了相對比較成熟的階段,在很多很多領(lǐng)域中都開始進(jìn)入實(shí)用階段,識別的準(zhǔn)確率也已經(jīng)很高了。圖像最近幾年也有了長足的進(jìn)展。這兩者都屬于人工智能當(dāng)中認(rèn)知的部分,所以深度學(xué)習(xí)的算法非常適合處理這些形式。
相對來說,自然語言的理解、或處理能力就更加難一些,并處在一個更加早期的階段,因?yàn)樗苏J(rèn)知方面的能力之外,還要求有推理、規(guī)劃等等能力,才能夠真正地理解自然語言。用戶畫像的能力,其實(shí)從傳統(tǒng)意義上來講并不是人工智能的領(lǐng)域,但是由于近年來大數(shù)據(jù)的發(fā)展,尤其是大型互聯(lián)網(wǎng)公司有能力搜集很多用戶的數(shù)據(jù)之后,再用人工智能的方法、用機(jī)器學(xué)習(xí)的方法,就可以把一個人的特征描繪得非常非常清楚。所以今天,用戶畫像也變成了人工智能、或者說變成了百度大腦的一個重要功能。
下面我就分別來講一下這幾個功能,這幾個百度大腦的功能。
我們先看一下語音,剛才也講了應(yīng)該說今天人工智能發(fā)展的最成熟的一部分能力,而語音又分成兩個方向,一個是語音的合成,一個是語音的識別。
我們先看看語音識別。今年MIT Technology Review(《MIT科技評論》)雜志,把百度的Deep Speech 2評為“2016改變世界十大突破技術(shù)”,這就是百度的語音識別引擎,它已經(jīng)到了第二代,主要就是使用了深度學(xué)習(xí)的能力。這樣的一個技術(shù)已經(jīng)可以把語音識別的準(zhǔn)確度做到多少呢?大概可以做到97%的準(zhǔn)確率,這樣的準(zhǔn)確率已經(jīng)達(dá)到、甚至有時已經(jīng)超過了人對語音的識別能力。當(dāng)然,我們講這些能力不是為了簡單地去炫耀這個數(shù)字有多好,我更感興趣的是,當(dāng)你有了這些能力時,它可以在什么領(lǐng)域應(yīng)用,又可以在哪些方面幫助到我們,這其實(shí)才是最最讓我們覺得興奮的地方。我個人的想象力很有限,整個百度幾萬人的想象力也是有限的,但是這些能力如果賦予到很多很多人,賦予給幾億人、幾十億人,這個可能性幾乎是無限的。先用我們比較有限的想象力來給大家舉一個例子。
這是一個銷售、電話銷售的例子,是一個2B(To B)的應(yīng)用。這個應(yīng)用是什么意思呢?很多的公司其實(shí)都有電話銷售這樣的一個部門,都需要這樣做。但是銷售,尤其是電話銷售這個行業(yè),大家知道流動性是比較大的,很多銷售都是新人,新人的話就會經(jīng)過一定的時間培訓(xùn)才能夠上崗,但即使是經(jīng)過培訓(xùn)的話,也不一定有那些有經(jīng)驗(yàn)的銷售那么出活兒、出單。其實(shí)有經(jīng)驗(yàn)、最優(yōu)秀的銷售和一般、較差的銷售相比,在效率上有非常大的差別。我們怎么才能夠讓新手、讓沒有經(jīng)驗(yàn)的銷售,能夠具備最優(yōu)秀銷售的銷售能力?過去的做法是,把優(yōu)秀的銷售經(jīng)驗(yàn)總結(jié)成冊子讓大家去學(xué)習(xí),讓這些銷售去背,但是怎么活學(xué)活用還是需要一個過程的。而有了這么高精度的語音識別能力之后,我們就可以徹底改變這樣一個狀況了,甚至可以讓一個剛剛上崗一個月的銷售就具備最優(yōu)秀銷售的能力,也就是說,我們可以通過實(shí)時的語音識別甄別出用戶或客戶在問什么問題,然后我們再實(shí)時地在屏幕上告訴新的銷售,最優(yōu)秀的銷售是怎么回答這個問題的。過去沒有實(shí)時的語音識別的時候,你需要線下學(xué),學(xué)完了之后上去用、很容易就忘了,但是有了這個系統(tǒng)之后,我們就可以解決這樣的問題。