比如說我們做的人臉檢測,我們把相冊里面的人臉檢測出來,然后再進(jìn)行標(biāo)注,做了各種各樣的UI設(shè)計(jì),我們把這個(gè)東西做到微軟的Photo Tagging為里面。后來我們做圖像的搜索,我想搜索一下我的小孩穿綠一衣服的照片,把穿這件衣服的照片搜索出來。后來我覺得前面這十幾張挺漂亮的,我把它選出來,然后做了一個(gè)識別軟件,你用計(jì)算機(jī)自動(dòng)判斷出來,這個(gè)照片里面哪些部分是重要的,你不能進(jìn)行遮擋,同時(shí)你要把整個(gè)背景全部蓋住,同時(shí)你要均勻的分布,所有的條件同時(shí)滿足,要在幾毫秒之內(nèi)算出來,這個(gè)技術(shù)現(xiàn)在是不難的,但是十年前是相當(dāng)難的。所以為什么那時(shí)候?qū)iT發(fā)表一篇文章專門干這件事情,我做了很多特別效果的軟件,這時(shí)候我太太不跟我吵架了,她覺得我干了一點(diǎn)有用的事情。
我剛才給大家看的其實(shí)都是有照片的,我判斷這個(gè)照片里面哪個(gè)地方重要,哪個(gè)地方不遮擋,我只要用人臉檢測就可以了。但是如果是普通照片,什么地方我不應(yīng)該遮擋,什么地方是重要的,這涉及到圖像內(nèi)容的分析,這就涉及到更加智能的東西。圖像智能在學(xué)界是研究很久的,我們研究的時(shí)候前面也已經(jīng)做了十幾年了,但是我們是第一個(gè)用大數(shù)據(jù)的方法來做這件事情的,現(xiàn)在大家經(jīng)常聽到大數(shù)據(jù),其實(shí)十幾年前已經(jīng)做這件事情了,只是我們叫的名字不一樣。
我們可以看到數(shù)字,過來三個(gè)學(xué)生,要了兩萬張圖像,我們覺得很了不起的,現(xiàn)在的數(shù)據(jù)量是不一樣的,算法也是不一樣的。那個(gè)時(shí)候能夠做到是相當(dāng)了不起的,所以我們最后做出的結(jié)果是這樣的,我們計(jì)算機(jī)可以判斷出一張圖像哪個(gè)是最重要的。
還有一個(gè)好玩的應(yīng)用,這個(gè)東西你把圖像縮小以后,你就看不清了,如果你把中間重要的部分切出來再縮小,你還是可以看清圖片的,所以這個(gè)實(shí)際上還是很有用的,這是照片系統(tǒng)里面很多圖很容易把里面重要的部分弄出來。
實(shí)際上人工智能難就難在并不是所有的東西都那么做的,有些東西是超出我們的智商的。比如說這張圖片,哪個(gè)對我來說是更重要的,但是計(jì)算機(jī)是把前面的判斷出來,這個(gè)現(xiàn)在是可以解的,現(xiàn)在我搜集大量小孩撒尿的照片還是可以訓(xùn)練出來的,但是不是那么容易的,有的時(shí)候領(lǐng)導(dǎo)講話也是這個(gè)姿勢。
下面這張圖更難理解了,我用我小孩的圖,你們做圖像理解,你們能不能理解這些圖。后來他們看了以后都放棄了這個(gè)研究方向,比如說這是我小孩的第一個(gè)女朋友,這是我在俄羅斯給他買的玩具,關(guān)系還是很好的,但是進(jìn)展的有點(diǎn)快。他才六個(gè)月,很有科學(xué)家的探索精神。
然后我們又做了一些有趣的東西,把這個(gè)圖像把物體切割出來,我們把一組圖同時(shí)切割出來,再做一些好玩的東西。
接下來我們希望跟一些電影結(jié)合起來,我們就找了小兵張嘎卡通片,我們進(jìn)行圖像搜索,找出了相似的圖像和照片,把這個(gè)替換掉了,這個(gè)用PS是很容易做的,但是十年前是很難做的。我們從檢索到分割,所有的步驟都是動(dòng)畫做的,這是十年前的工作,也是發(fā)表在頂級的會(huì)議上。這個(gè)是小兵張嘎跟他的妹妹,這是我的小孩跟他的女朋友。這是小兵張嘎跟特務(wù)。
剛才講的是人臉識別,圖像方面我們也做了開創(chuàng)性的工作,在我們做之前,大家講這張圖有一些毛病,然后再評價(jià)這個(gè)Quality,我們做這個(gè)工作這張圖是很完整的圖,但是我們判斷這張圖有多美、多漂亮。比如說這兩張圖,按照傳統(tǒng)算法,左邊是模糊的圖,右邊是清晰的圖,但是我們判斷左邊這張圖是有意義的,怎么讓計(jì)算機(jī)來判斷一個(gè)圖美,還是不美,其實(shí)我們也不知道怎么做。所以我讓學(xué)生到圖書館把攝影書拿回來,我們再用計(jì)算機(jī)來識別,它的景深,物體的白色在什么位置,然后學(xué)突然這張圖是漂亮,還是不漂亮的。它有什么用呢?我們在網(wǎng)上搜索了大量的圖,搜索完了以后我們可以把漂亮的圖放在前面,差的放在后面。或者說你在手機(jī)牌照的時(shí)候,我們可以教你怎么牌照,怎么取景,怎么樣使用大光圈等等。
我們在MSN上還做了一些特效,加一些眼鏡,如果大家現(xiàn)在用APP可以在臉上做各種各樣的特效,這是我們十年前做的產(chǎn)品,已經(jīng)在MSN上用了很長時(shí)間。但是我們做這么多產(chǎn)品,大家沒有一點(diǎn)感覺,根本不知道我們做了什么東西,就是因?yàn)樽龅暮苄量啵倚Ч矝]有那么好。