
圖7:人臉識別
考察一個單項的「弱」人工智能技術(shù)是否成熟,達到乃至超過人類的平均水平應(yīng)該是一個比較通用的準則。說到這里不得不提一個人臉識別的標準評測數(shù)據(jù)庫 LFW(Labeled Face in the Wild)數(shù)據(jù)庫。在 2014 年,F(xiàn)acebook 使用一個叫做 DeepFace 的深度學(xué)習(xí)方法,第一次在 LFW 數(shù)據(jù)庫上接近人類的識別水平(DeepFace: 97.35% VS. Human: 97.53%),其結(jié)果如圖 8 所示:

圖8: DeepFace深度學(xué)習(xí)網(wǎng)絡(luò)
「Talk is cheap, show me the code」,自從 DeepFace 在人臉識別領(lǐng)域一戰(zhàn)成名,讓研究人員們看到了超越人類識別能力的曙光。隨著幾大開源深度學(xué)習(xí)項目(例如 CAFFE,TORCH, TensorFlow)的發(fā)展壯大,基于深度學(xué)習(xí)的方法真正如雨后春筍般席卷整個人臉識別領(lǐng)域。事實也證明深度學(xué)習(xí)確實能夠做到,短短一年以后就有很多基于深度學(xué)習(xí)的方法在 LFW 數(shù)據(jù)庫上超過人類的識別能力,例如優(yōu)圖的人臉識別算法就在 15 年取得當時世界第一的 99.65% 準確率。
深度學(xué)習(xí)為什么如此神奇,能在短短的幾年時間里一統(tǒng)江湖呢?拋開技術(shù)細節(jié)不談,原理上來說最為關(guān)鍵的兩個因素就是:層級式抽象和端到端可學(xué)習(xí)。
在回顧「淺」時代人臉識別方法歷史時曾經(jīng)介紹了基于幾何特征的方法(圖2)和基于判別性特征的方法(圖4)。下圖這些特征無疑都是針對人臉的某種抽象。由于原始圖像輸入的搜索空間巨大,只有通過恰當?shù)某橄罂s小搜索范圍,才能最終做出合理的決策。對一個復(fù)雜的概念想要通過一層的抽象就將所有結(jié)構(gòu)梳理清楚會是很難甚至不可能的,而深度神經(jīng)網(wǎng)絡(luò)這種多層結(jié)構(gòu)給自底向上的逐級抽象提供了天然的模具。只要將足夠多的數(shù)據(jù)輸入到具有多層結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)并告知它你想要的輸出結(jié)果,網(wǎng)絡(luò)可以自動的學(xué)習(xí)中間層的抽象概念,如圖 9 所示,好奇的研究人員將一個能夠識別 1000 類物體的神經(jīng)網(wǎng)絡(luò)中的特征進行了可視化:

圖9:深度神經(jīng)網(wǎng)絡(luò)特征可視化結(jié)果
從圖中可以看到在深度神經(jīng)網(wǎng)絡(luò)的第一層有點類似人類科學(xué)家積累多年經(jīng)驗找到的 Gabor 特征。第二層學(xué)習(xí)到的是更復(fù)雜的紋理特征。第三層的特征更加復(fù)雜,已經(jīng)開始出現(xiàn)一些簡單的結(jié)構(gòu),例如車輪、蜂窩、人頭。到了第四、五層機器輸出的表現(xiàn)已經(jīng)足以讓人誤以為它具備一定的智能,能夠?qū)σ恍┟鞔_的抽象概念例如狗、花、鐘表、甚至鍵盤做出特別的響應(yīng)。研究人員們積累幾年甚至十幾年設(shè)計出來的特征例如 Gabor、SIFT,其實可以通過深度神經(jīng)網(wǎng)絡(luò)自動的學(xué)習(xí)出來(如圖9中「Layer 1」),甚至自動學(xué)習(xí)出它的人類「爸爸」難以言喻的更高層次抽象。從某種意義上來說,人工智能科學(xué)家就是機器的父母,需要「教」機器寶寶認識這個世界。誰都希望自己有個聰明寶寶,只用教它「知其然」,它自己慢慢總結(jié)消化然后「知其所以然」。深度神經(jīng)網(wǎng)絡(luò)就像個聰明的機器寶寶自己會學(xué)習(xí)、會抽象、會總結(jié)。
端到端可學(xué)習(xí),乍一聽這個名詞可能覺得頭有點「方」,其實可以簡單理解為全局最優(yōu)。圖 7 中總結(jié)了在「淺」時代,人臉識別的各個子問題都需要通過兩個甚至更多個步驟來完成,而多個步驟之間完全獨立的進行優(yōu)化。這是典型貪心規(guī)則,很難達到全局最優(yōu)。事實上,受限于優(yōu)化算法深度神經(jīng)網(wǎng)絡(luò)也很難達到全局最優(yōu)解,但是它的優(yōu)化目標是全局最優(yōu)的。近幾年深度學(xué)習(xí)在各種任務(wù)上的成功經(jīng)驗,表明機器寶寶也是需要有夢想的,直接對準「遠方」的全局最優(yōu)目標進行學(xué)習(xí),即使得不到最優(yōu)解也也遠遠好過小碎步的局部貪心算法。想要達到真正的「強」人工智能,深度神經(jīng)網(wǎng)絡(luò)還有很長的路要走,星爺?shù)拿詫ι窠?jīng)寶寶同樣適用,做人沒有夢想和咸魚有什么分別。
進擊——優(yōu)圖祖母模型的「進化」
隨著深度神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)技術(shù)的發(fā)展,在 LFW 人臉數(shù)據(jù)庫上,三、四年前讓所有機器學(xué)習(xí)算法寶寶們望塵莫及的人類識別能力早已被超越。雖然優(yōu)圖也曾在 LFW 上取得 99.65% 超越人類平均水平的好成績,但是我們清楚的明白刷庫還遠遠不夠,在實際場景中的應(yīng)用更重要也更具挑戰(zhàn)性,在實踐中優(yōu)圖已經(jīng)根據(jù)落地需求對各種應(yīng)用場景和應(yīng)用類型做出了細分,以便實現(xiàn)各種場景下人臉識別任務(wù)的各個擊破。目前在落地應(yīng)用中,常見的照片場景類型有生活照,自拍照、監(jiān)控視頻、門禁閘機、西方人及其他人種照片,如圖 10 所示。