騰訊優(yōu)圖隸屬于騰訊社交網(wǎng)絡(luò)事業(yè)群(SNG),團(tuán)隊(duì)整體立足于騰訊社交網(wǎng)絡(luò)大平臺(tái),專(zhuān)注于圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、深度學(xué)習(xí)、音頻語(yǔ)音分析等領(lǐng)域開(kāi)展技術(shù)研發(fā)和業(yè)務(wù)落地。
序言——「弱弱」的人工智能
說(shuō)到人工智能(Artificial Intelligence, AI)人們總是很容易和全知、全能這樣的詞聯(lián)系起來(lái)。大量關(guān)于人工智能的科幻電影更給人工智能蒙上一層神秘的色彩。強(qiáng)如《黑客帝國(guó)》、《機(jī)械公敵》中的AI要翻身做主人統(tǒng)治全人類(lèi)。稍弱點(diǎn)的《機(jī)械姬》里 EVA 懂得利用美貌欺騙中二程序員,殺死主人逃出生天。最不濟(jì)也可以蠢萌蠢萌的像 WALL·E 能陪玩、送禮物還能談個(gè)戀愛(ài)。
其實(shí)人工智能這個(gè)詞在 1956 年達(dá)特茅斯會(huì)議上正式誕生時(shí),目標(biāo)就是想要讓機(jī)器的行為看起來(lái)像是人所表現(xiàn)出的智能行為一樣的「強(qiáng)」人工智能。然而人工智能的研究是高度技術(shù)性和專(zhuān)業(yè)性的,各分支領(lǐng)域都是深入且各不相通的,因而涉及范圍極廣。正是這種復(fù)雜屬性,導(dǎo)致人們對(duì)人工智能的研究進(jìn)程總是磕磕碰碰,反復(fù)地經(jīng)歷過(guò)分樂(lè)觀的浪潮與極度悲觀的寒冬。時(shí)至今日,想要完成全知、全能的強(qiáng)人工智能仍然只是一個(gè)長(zhǎng)遠(yuǎn)目標(biāo)。
雖然目前的技術(shù)水平還遠(yuǎn)不能實(shí)現(xiàn)強(qiáng)人工智能,但在一些非常特定的領(lǐng)域里,弱人工智能技術(shù)正在經(jīng)歷前所未有的迅猛發(fā)展,達(dá)到或已超越人類(lèi)的最高水平。例如深藍(lán)、Alpha Go 分別在國(guó)際象棋和圍棋領(lǐng)域擊敗世界冠軍。例如自然語(yǔ)言理解、語(yǔ)音識(shí)別和人臉識(shí)別接近、達(dá)到甚至超越普通人的識(shí)別水平。雖然這些弱人工智能技術(shù)并不能真正地推理、理解和解決問(wèn)題,但是面對(duì)特定的任務(wù)它們所給出的「判斷」看起來(lái)是具有智能的。而正是這些看似「弱弱」的人工智能技術(shù),在悄悄的改變?nèi)祟?lèi)生活的方方面面。它們以點(diǎn)帶面完成越來(lái)越多的「簡(jiǎn)單任務(wù)」,為人們提供更加簡(jiǎn)潔、方便和安全的服務(wù)。
人臉識(shí)別正是眾多「弱弱」的人工智能技術(shù)之一。通過(guò)看人的面孔識(shí)別其身份,對(duì)每一個(gè)正常的人來(lái)說(shuō)都是再簡(jiǎn)單不過(guò)的。如果強(qiáng)行將人臉識(shí)別的難度和下圍棋來(lái)比,應(yīng)該沒(méi)有人會(huì)覺(jué)得人臉識(shí)別更難。然而從計(jì)算機(jī)的角度來(lái)看,至少在輸入數(shù)據(jù)的復(fù)雜度上人臉識(shí)別是遠(yuǎn)超圍棋單步走子決策的。如圖 1(a) 所示,一張 Angelababy 的圖像在計(jì)算機(jī)看來(lái),其實(shí)就是一個(gè)數(shù)字矩陣如圖 1(b)。數(shù)字矩陣的每個(gè)元素取值范圍是 0-255 的整數(shù)。通常人臉識(shí)別算法所需的輸入圖像至少在以上,大的可能達(dá)到。理論上不同的可能輸入共有種(每個(gè)像素的取值范圍為 0-255)。而圍棋任意單步走子的可能局面上限為(每個(gè)棋盤(pán)格只能有黑子,白子,無(wú)子三種情況),遠(yuǎn)遠(yuǎn)小于人臉識(shí)別。無(wú)論是圍棋還是人臉識(shí)別,通過(guò)遍歷完整的輸入空間來(lái)做出最優(yōu)的決策,就計(jì)算復(fù)雜度而言都是完全無(wú)法接受的。

圖1:數(shù)字化的人臉識(shí)別 VS. 圍棋單步?jīng)Q策
其實(shí)對(duì)幾乎所有人工智能問(wèn)題,如何通過(guò)更高層次的抽象來(lái)理解輸入從而更快速的做出決策都是解決問(wèn)題的關(guān)鍵所在。近十年來(lái)引領(lǐng)新一波人工智能浪潮的核心技術(shù)「深度學(xué)習(xí)」就是這樣一種方法,它通過(guò)少則近幾層多則上百層人工神經(jīng)網(wǎng)絡(luò)不斷地對(duì)高維的輸入數(shù)據(jù)塊進(jìn)行抽象與理解并最終做出「智能」的決策。單憑深度學(xué)習(xí)技術(shù)可能仍然難以完成全知全能的「強(qiáng)」人工智能,但它卻是完成任何特定「弱」智能任務(wù)的一把牛刀。正是看到深度學(xué)習(xí)技術(shù)如此巨大的潛力,國(guó)際互聯(lián)網(wǎng)巨頭 Google,F(xiàn)acebook,Microsoft 紛紛搶先布局,國(guó)內(nèi)互聯(lián)網(wǎng)領(lǐng)袖BAT也不惜資源進(jìn)行技術(shù)儲(chǔ)備,作為騰訊內(nèi)部頂級(jí)的機(jī)器學(xué)習(xí)研發(fā)團(tuán)隊(duì),優(yōu)圖也投入精英人力專(zhuān)注于深度學(xué)習(xí)技術(shù)的研發(fā)與產(chǎn)品落地。
本文著重以人臉識(shí)別為例介紹深度學(xué)習(xí)技術(shù)在其中的應(yīng)用,以及優(yōu)圖團(tuán)隊(duì)經(jīng)過(guò)近五年的積累對(duì)人臉識(shí)別技術(shù)乃至整個(gè)人工智能領(lǐng)域的一些認(rèn)識(shí)和分享。
回顧——人臉識(shí)別的「淺」時(shí)代
在介紹深度學(xué)習(xí)技術(shù)在人臉識(shí)別中的應(yīng)用之前,我們先看看深度學(xué)習(xí)技術(shù)興起前的「淺」時(shí)代人臉識(shí)別技術(shù)。前面提到高維輸入是所有類(lèi)人工智能問(wèn)題的一個(gè)普遍難題,學(xué)界稱(chēng)之為「維數(shù)災(zāi)難」(The curse of dimensionality)。其實(shí)在機(jī)器自動(dòng)人臉識(shí)別技術(shù)研究的早期研究者們嘗試過(guò)用一些非常簡(jiǎn)單的幾何特征來(lái)進(jìn)行人臉識(shí)別, 如圖 2 所示(請(qǐng)?jiān)張D片的質(zhì)量,摘自 93 年的一篇人臉識(shí)別領(lǐng)域奠基之作[1])。