12月20日的上海,寒氣襲人,在虹橋吳中路1189號的五樓會議室,站在一塊投影屏和白板之間的Alan Yuille教授,手托腮,若有所思。在他面前的是慕名而來、經(jīng)過遴選的來自清華、浙大高校具有計算機相關背景的40多名學生。因為Alan教授在霍金的指導下獲得了理論物理博士學位,同時又是計算機視覺領域頂級學者。
在他的學生Leo Zhu(朱瓏,依圖科技創(chuàng)始人)的邀請下,他不遠萬里來到中國,開啟為期兩天的計算機視覺課程。Alan教授有著滿頭的銀絲、深陷的眼眶和蒼白的面容,看上去就像個普通的白人老者,但卻在知識的深度和廣度上異于常人—擁有數(shù)學、理論物理、計算機、心理學、精神病學和生物行為學等領域深厚的研究背景。
此后,Alan教授開始將興趣轉(zhuǎn)向人工智能,主要鉆研其分支領域計算機視覺(Computer Vision),先后就職于MIT人工智能實驗室、哈佛大學計算機系,現(xiàn)任職于UCLA統(tǒng)計系,也是UCLA視覺識別與機器學習中心主任。三十年來,Alan教授涉足計算機視覺的學術和產(chǎn)業(yè)界,成為了首屈一指的專家。
而此次來華,Alan教授一方面是為了向中國學生普及計算機視覺知識和行業(yè)現(xiàn)狀,另一方面也是為了支持其學生Leo的創(chuàng)業(yè)項目“依圖”—專注于視覺理解的初創(chuàng)公司,提供基于圖像理解的信息獲取和人機交互的產(chǎn)品,致力于構(gòu)建機器視覺的未來。
由木見林看世界
什么是計算機視覺?Alan教授在兩天的課程中都講了什么?在應用層面,計算機視覺技術能用來做什么?
簡單來說,計算機視覺是賦予計算機和人一般處理視覺信息的認知能力,即制造有人類視覺能力的機器,讓計算機通過學習算法接近人類對圖像的理解程度,對明顯的視覺信息進行深度分析。而當計算機實現(xiàn)了對圖像和視頻的初始理解,計算機視覺就能幫助人類突破局限性,改善生活。
不同于計算機,人類一睜眼就能迅速看到和看明白一個場景,因為人的大腦皮層至少有一半以上海量神經(jīng)元參與了視覺任務的完成。而計算機和人腦則是在極為不同的物理或生物限制下進行運轉(zhuǎn),即便說計算機視覺理想狀態(tài)要更接近人類智慧,但在控制環(huán)境中,計算機系統(tǒng)能夠比人類更好地完成某項明確任務。
計算機視覺的開放性任務一般包括物體檢測、人臉識別、人類行為識別和場景理解。這也是依圖正在試圖通過技術應用解決的任務。而物體識別是計算機視覺研究的核心議題,不過當計算機沒有學習,不知道看什么的時候,顯然并不能看懂什么,所以需要一套系統(tǒng)教會計算機識別物體。
在傳統(tǒng)物體識別系統(tǒng)中,當計算機嘗試研究一個特殊類型的數(shù)碼圖像時,會首先檢測圖片的顯著特征,即Alan教授課堂上講述的邊緣檢測(Edge Detaction)和圖像分割(Image Segmentation)。假設系統(tǒng)需要識別人臉,就會查看眼睛、鼻子和嘴巴等器官的邊緣部分,然后確定它們之間的空間位置。
這意味著,處理數(shù)以萬計物體的計算機系統(tǒng)將會變得不可控制的龐大。每當計算機系統(tǒng)庫中加入一個新的物體,計算機就需要從頭開始確定物體的重要部分。而物體雖然具有固有組成部分,但不同角度物體看上去又有所不同,所以計算機需要不斷檢視邊緣確定空間位置,從而占用了大量存儲。
而Alan教授和Leo Zhu于2010年采用新的方法解決了上述問題。他們研發(fā)的新系統(tǒng)通過遞歸式塔狀結(jié)構(gòu)來表示物體的結(jié)構(gòu)—系統(tǒng)不需要事先被告知物體的哪些特征需要尋找,會先判定細微細節(jié),由低層次的結(jié)構(gòu)組合成稍微復雜的形狀,再辨別稍復雜形狀如何組合成為更高層次部分,組裝成一個塔式結(jié)構(gòu),而最高一層則代表整個物體的模型。
基于研究成果,Leo Zhu意識到計算機視覺逐漸達到了從理論轉(zhuǎn)化到應用層面的階段,未來幾年將進入技術爆發(fā)時期。2012年,他萌生了回國創(chuàng)業(yè)的想法。
“依圖”的機器視覺
Leo Zhu在取得導師Alan教授的支持后,與多年好友林晨曦(前阿里云技術總監(jiān),ACM/ICPC全球大學生程序設計競賽亞洲第一個世界冠軍團隊成員)合作創(chuàng)辦了專注于圖像理解的初創(chuàng)公司“依圖”,并把駐地設在了上海。