所以我們可以看到,第一我們需要用一個(gè)非常復(fù)雜的模型,去減少這種偏差,第二個(gè)問題我們要用無偏的,也就是大數(shù)據(jù)去彌補(bǔ)。這樣我們得出一個(gè)結(jié)論:深度學(xué)習(xí)跟傳統(tǒng)的人工智能比較,隨著數(shù)據(jù)的增長能夠吸收數(shù)據(jù)增長帶來的紅利。傳統(tǒng)人工智能模型可能不夠復(fù)雜,比如是一個(gè)線性模型,數(shù)據(jù)量大了后偏差會(huì)比較大。還有一種可能是模型很好,但計(jì)算的問題無法解決。比如有一種很好的模型,它的計(jì)算復(fù)雜度是N的二次方到三次方,這樣處理一萬個(gè)學(xué)習(xí)樣本和一百萬個(gè)學(xué)習(xí)樣本,需要的計(jì)算資源就至少相差一萬倍。在大數(shù)據(jù)的時(shí)代,這就只能到此為止了。
深度學(xué)習(xí)是一套靈活的、復(fù)雜的語言系統(tǒng)。在不同的問題里會(huì)有不同的語言框架,用不同的結(jié)構(gòu)去處理不同的問題。百度今天在這方面可以說走在相當(dāng)?shù)那懊妫瑥囊?guī)模上講,百度可能是世界上第一個(gè)運(yùn)用大規(guī)模的GPU Servers的公司 , 12年的時(shí)候,當(dāng)時(shí)我們就采購了世界上最大的采購量。
今天我們有五六千臺(tái)的PC Server,超過兩千臺(tái)GPU的Server在一起做這種混合的大規(guī)模的深度學(xué)習(xí)的訓(xùn)練,所以我們現(xiàn)在能夠構(gòu)建這種相當(dāng)大的、千億級(jí)參數(shù)的世界上最大的人工神經(jīng)網(wǎng)絡(luò)。在其他方面很多算法比如語音識(shí)別、圖像識(shí)別、自然語言、廣告、用戶建模等幫助很大。
今天我們已經(jīng)不是停留在研究的層面,而是對(duì)于百度的業(yè)務(wù)比如說搜索、廣告、圖像、語音,因?yàn)樯疃葘W(xué)習(xí)帶來的提升是非常巨大的。在整個(gè)業(yè)務(wù)里扮演的角色也變得更加的智能,一言以蔽之,我們的業(yè)務(wù)模式是連接人和信息,連接人和服務(wù),你如何去理解人的意圖,比如一個(gè)關(guān)鍵詞,一張照片,說一句話,如何匹配用戶需求,如何推送信息和服務(wù)。
深度學(xué)習(xí)的應(yīng)用例子
鳳巢就是一個(gè)用深度學(xué)習(xí)去實(shí)現(xiàn)變現(xiàn)的例子,在過去兩年對(duì)點(diǎn)擊率和搜索滿意度的提升都是巨大的。
再舉一個(gè)例子,我們?nèi)绾翁嵘阉鞯南嚓P(guān)性。它是怎么做的呢?大致的思想是,評(píng)估相關(guān)性過去我們要做很多特征的抽取,今天我們把用戶的查詢和結(jié)果匹配得到一個(gè)分?jǐn)?shù),在神經(jīng)網(wǎng)絡(luò)里進(jìn)行比較,當(dāng)在訓(xùn)練的時(shí)候,我們會(huì)把用戶體現(xiàn)出來的這種偏好給到一個(gè)差異足夠大的分?jǐn)?shù),我用超過一千億的的樣本來訓(xùn)練這個(gè)系統(tǒng),在過去兩年里面導(dǎo)致相關(guān)性有了一個(gè)巨大的提升。
這帶來的相關(guān)性更多的是在語義的理解,尤其是一天中查詢可能不到10次的這種長尾查詢,這是最考驗(yàn)搜索引擎的能力的,因?yàn)閷?duì)于非常高頻的查詢,每個(gè)搜索引擎可能都差不多。這里有一個(gè)例子是瑪莎拉蒂的一款車車頭如何放車牌,我們過去的系統(tǒng)得到的基本是基于關(guān)鍵詞的匹配,沒有回答這個(gè)問題。我們的合作伙伴(Google)的結(jié)果匹配了“車頭”這個(gè)關(guān)鍵字,但對(duì)語義沒有進(jìn)行進(jìn)一步的理解。我們運(yùn)行了我們這個(gè)模型后,你可以看到查詢的問題是“車頭”、“放置車牌”,但結(jié)果找到了“前牌照怎么裝”,它不是用關(guān)鍵詞來進(jìn)行匹配,而是根據(jù)語義來匹配,這就是深度學(xué)習(xí)帶來的一個(gè)改變。
還有語音識(shí)別的例子。百度的語音識(shí)別實(shí)際從12年開始做,但深度學(xué)習(xí)使得過去陽春白雪的東西變成了你用大數(shù)據(jù)就可以做的東西。過去語音識(shí)別從聲學(xué)角度抽取特征,比如頻率特征,將其抽取出來變成一種因素,然后從低層到高層的逐層處理。一開始的時(shí)候我們不關(guān)心它是什么,只是考慮它讀起來是什么樣子的,今天的深度學(xué)習(xí)盡量把中間的步驟變成可以訓(xùn)練的步驟,把中間的步驟變得可學(xué)習(xí),中間沒有過多的人工干預(yù),帶來的好處是用大量的數(shù)據(jù)訓(xùn)練這個(gè)模型。在Benchmark(標(biāo)桿測試)上我們可以得到一個(gè)非常好的結(jié)果。
另外再給大家看一個(gè)例子,這是運(yùn)單手寫電話號(hào)碼的識(shí)別,過去我們一開始是做檢測、切割,切割以后把每一個(gè)數(shù)字切割出來做識(shí)別,但像這個(gè)例子,你會(huì)發(fā)現(xiàn)是沒法做分割的,那你只能把它做成一個(gè)一體的的解碼。這反映的就是深度學(xué)習(xí)給我們帶來的不是一個(gè)黑盒,而是一個(gè)很豐富的語言系統(tǒng),我們希望對(duì)這些問題有足夠理解,然后去開發(fā)最適合它的模型。
我剛才提到了圖片的識(shí)別,加上字符的識(shí)別,加上語音的識(shí)別,加上機(jī)器的翻譯,那百度可以做出這樣的產(chǎn)品,比如今天中國人到紐約的街頭可以問:“附近哪里有川菜館?”你用中文說了后識(shí)別成中文,然后翻譯成英文讀出來。我們可以不斷優(yōu)化這個(gè)事情,在幾年的時(shí)間里可以變成現(xiàn)實(shí),那么中國的小朋友們就可以更多時(shí)間去玩,更少時(shí)間用在學(xué)無聊的英語上了(觀眾笑)。當(dāng)然還有拍照。這是我的一個(gè)好朋友,NYU的一個(gè)教授到上海,他用這個(gè)產(chǎn)品點(diǎn)菜,看菜單他就不擔(dān)心這個(gè)東西是不是鳳爪之類他不敢吃的東西。