圖2
圖3
20年來,在原理變化不大的前提之下,應(yīng)用開發(fā)進(jìn)展卻極其遲緩,其原因在于,此前無論是人臉圖像數(shù)據(jù)庫的規(guī)模,還是計算能力本身,都只能用“貧瘠”來形容。
供研究的人臉圖像數(shù)據(jù)庫為何不足以支持任何形式的技術(shù)突破?有數(shù)字為證:1990年前后,ORL人臉庫、E yale B耶魯實驗室和AR人臉庫中的人臉原型樣本人數(shù)少于130人,首選識別率在95%-99%的范圍內(nèi);直到2007年,LFW(Labeled Face in the Wild)人臉庫中也僅有5749位明星的13233張圖。
在一些擁有大規(guī)模數(shù)據(jù)資產(chǎn)的IT領(lǐng)袖企業(yè)加入人臉識別研究陣營后,這種情況才得到了顯著改善。2014年,F(xiàn)acebook的DeepFace人臉庫包含了4030位樣本人物的4400萬張圖,算法方面由多達(dá)8層網(wǎng)絡(luò)、1.2億訓(xùn)練參數(shù)的系統(tǒng)來支持。而谷歌的FaceNet數(shù)據(jù)庫規(guī)模更大,容量為來自800萬樣本人物的2億張圖像,以及22層深度網(wǎng)絡(luò)與1.4億參數(shù)的算法系統(tǒng)。在此方面國內(nèi)公司也不遜色,有公司已搭建出多達(dá)7000萬名樣本人物(每人1張證件照、1張生活照)的圖像庫,以30層以上深度網(wǎng)絡(luò)、20塊NVIDIA M40 GPU訓(xùn)練6天,取得了相當(dāng)不錯的成績。
多大規(guī)模的數(shù)據(jù)才算是大數(shù)據(jù)?當(dāng)數(shù)據(jù)多到可對幾乎整個樣本空間進(jìn)行充分覆蓋,從而減弱對理論與模型的依賴時,這樣的數(shù)據(jù)就足夠“大”了。像預(yù)測投擲硬幣這種問題,樣本空間為{0, 1},1000個樣本就算是大數(shù)據(jù),就足以得到置信度較高的預(yù)測。而對機器翻譯、圖像識別這樣的課題而言,樣本空間的數(shù)量級就大得太多——去年年底召開的第六屆ImageNet圖像識別大賽上,微軟團(tuán)隊設(shè)計的圖像識別系統(tǒng)擊敗了Google、英特爾、高通等強大對手,取得了多項第一名。據(jù)我所知,微軟訓(xùn)練其圖像識別系統(tǒng)是使用了152層深度網(wǎng)絡(luò)。這提示了我們?nèi)绾瓮七M(jìn)研究:傳統(tǒng)方法是少量數(shù)據(jù)+復(fù)雜模型,到一定階段后,系統(tǒng)性能便很難再提升;有了大數(shù)據(jù)之后,業(yè)界使用海量數(shù)據(jù)+簡單模型也能獲得比傳統(tǒng)方法更好的結(jié)果;接下來,當(dāng)海量數(shù)據(jù)與復(fù)雜模型相結(jié)合,應(yīng)該可以創(chuàng)造出最佳的訓(xùn)練結(jié)果。
由上述案例也可以看出,學(xué)術(shù)界的算法與系統(tǒng)的實操水平與工業(yè)界的差距較大,學(xué)術(shù)界對應(yīng)用性能的理解水平與工業(yè)界差距亦大——一直以來,在人臉識別領(lǐng)域,工業(yè)界的應(yīng)用任務(wù)有兩個模式:1:1也即兩張人臉二選一辨認(rèn)、1:N也即多張人臉N選一辨認(rèn)。在各種測試條件下,企業(yè)已做到:處理1:1任務(wù)時,性能達(dá)到誤報率百萬分之一以下;處理1:N任務(wù)時,性能已實現(xiàn)在N等于千萬級查詢的條件下,首選命中率約90%。也正因工業(yè)界的介入,兩年前,機器識別人臉的能力已超人類。類似美劇《疑犯追蹤》里人臉識別的場景隨時會成為現(xiàn)實。
在推進(jìn)技術(shù)實用化、主流化方面,工業(yè)界比學(xué)術(shù)界的效率高很多,這并不難理解——不僅是因為前者的資金充裕,更重要的是,工業(yè)界在獲娶儲備、利用用戶數(shù)據(jù)方面較之學(xué)術(shù)界優(yōu)勢明顯,而且像Facebook、谷歌這樣的巨頭,可以使用幾乎無限制的云計算資源來加速研發(fā)進(jìn)程。
云將越來越重要
我的前同事,圖靈獎獲得者、數(shù)據(jù)庫大師吉姆·格雷在他的大作《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》中對科學(xué)發(fā)展的范式有著非常精辟的總結(jié):千年以前,科學(xué)是基于簡單的實踐經(jīng)驗來描述現(xiàn)象。過去的幾百年里,科學(xué)家們開始嘗試開辟學(xué)科與理論分支,建立和使用模型來概括現(xiàn)象。最近的幾十年,新生的計算分支以計算來模擬復(fù)雜的現(xiàn)象。而今則是靠大數(shù)據(jù)來探索現(xiàn)象。
計算資源從端向云匯集,這為算法創(chuàng)新和大數(shù)據(jù)應(yīng)用創(chuàng)造了無盡的可能性——過去五年來,我們見證了云計算是如何推動消費級產(chǎn)品與企業(yè)級產(chǎn)品領(lǐng)域的偉大創(chuàng)新,見證了云計算是怎樣從一個被過度炒作、被無端懷疑的概念逐步成長為整個IT產(chǎn)業(yè)乃至各行各業(yè)的基礎(chǔ)平臺,見證了云計算支持下的技術(shù)(如AI、VR、AR等等)爆炸與應(yīng)用模式(如游戲、O2O、直播等等)革新。
今后十年,整個中國IT產(chǎn)業(yè)成長速度最快的,很可能會是云計算公司。回顧以往,從新生力量迅速成長為巨頭的美國公司只有一家,那就是專注于云計算的AWS(如圖4),其發(fā)展軌跡幾乎與從事ToC業(yè)務(wù)的Facebook重合。況且,與發(fā)展更快、成熟度更高的美國市場相比,中國云計算市場仍處在從爬坡式漸增到直升式激增的進(jìn)化節(jié)點上(如圖5)。