近日,有消息稱,谷歌已經(jīng)公布了一個新的圖像字幕系統(tǒng),它可以智能識別照片上的內容,并自動對它用自然語言進行描述并標記。雖然之前已經(jīng)有智能系統(tǒng)可以自動標記圖像,識別出其中的某個物體,但谷歌的這項技術可以描述得更全面,比如它的描述可能是“兩只狗在草地上玩”或“帶粉紅色帽子的小女孩在吹泡泡”等。這可以說是人工智能/人工學習領域的一次重大突破,因為該軟件系統(tǒng)是谷歌使用大規(guī)模模擬神經(jīng)元處理數(shù)據(jù)的最新研究成果。沒有人對識別場景的規(guī)則進行編程,這一神經(jīng)網(wǎng)絡是自己“學”會處理數(shù)據(jù)的。看來人工智能也并不總是讓人擔心會毀滅人類,或許還能在晚上捧著兒童繪本給小孩子們講講睡前故事什么的,是不是也挺讓人暖心的呢?
傳統(tǒng)圖像識別的困境
現(xiàn)在我們已經(jīng)應用的成熟圖像識別技術采用的是“模板匹配”的算法,按照信息的獲取——預處理——特征抽取和選擇——分類器設計——分類決策這樣的順序進行識別。聽起來似乎還不錯,識別的準確性也確實很高,不少掃描儀就是采用這樣的算法來識別文字的。但這種模型強調圖像必須與模板完全符合才能加以識別,而事實上人不僅能識別與腦中的模板完全一致的圖像,也能識別與模板不完全一致的圖像。例如,人們不僅能識別某一個具體的字母A,也能識別印刷體的、手寫體的、方向不正的、大小不同的各種字母A。同時,人要識別的圖像是大量的,如果要求所識別的每一個圖像在腦中都有一個相應的模板,那也是不可能的。這是模板識別天生的阿格硫斯之踵,也是很多辭書類APPs可以通過攝像頭直接識別書本上的文字并翻譯,但卻對你的手寫體視若無睹的原因。
筆者的老師中就有從事交通標志識別研究的,主要工作就是在數(shù)量巨大的圖片中找到交通標志,并對其加以識別。聽起來和目前已經(jīng)頗為成熟的車牌號碼識別技術沒有什么區(qū)別,但在實際操作中卻表現(xiàn)得異常困難。同一地點不同時間的圖片往往不能夠完美地識別出相同的結果,圖像上來自各方的干擾往往也難以準確地排除。這些問題都是由模板識別造成的。雖然目前已經(jīng)有較為先進的汽車開始裝配交通標志識別系統(tǒng),但圖像識別在其中的作用并不大,汽車所以能夠識別交通標志,主要是依賴交通部門和汽車公司的數(shù)據(jù)與離線地圖提供商的地理信息系統(tǒng)進行匹配而取得的,圖像識別只是一個有益的補充而已。
圖像識別在中國
說到中國市場上的圖像識別/處理公司,微軟與漢王絕對是不能不提的。除了雙方都做得不錯的漢字手寫識別(目前,漢字的手寫識別依然是基于模板識別算法的,不過加入了更加高級的模糊模式——相似性識別技術)外,漢王的生物識別技術與微軟的大數(shù)據(jù)處理技術都在社會生產(chǎn)生活中得到了充分的應用。漢王推出的各類指紋、面部識別打卡機真是“引無數(shù)白領盡折腰”??!微軟在上海的大數(shù)據(jù)處理中心也是中國實用性最強的農(nóng)業(yè)大數(shù)據(jù)處理中心之一,不少農(nóng)業(yè)研究所都會將自家的數(shù)據(jù)交給他們處理。
我曾經(jīng)有幸參觀過一所農(nóng)業(yè)大數(shù)據(jù)研究所,他們在實驗地區(qū)布置了大量的攝像頭以檢測麥田的生長狀況,沒有安裝攝像頭的農(nóng)戶也可以通過智能手機將麥田的圖像上傳到云端。這些圖像會由研究所的專家進行分析后再將結果反饋給農(nóng)戶。僅僅幾百個攝像頭,幾十部智能手機就代替了過去需要數(shù)十名農(nóng)技人員親自下田勘察才能得來的數(shù)據(jù)與報告。而最終這些圖像、數(shù)據(jù)會被發(fā)送至位于上海的微軟大數(shù)據(jù)處理中心進行綜合處理,計算機會根據(jù)圖像、數(shù)據(jù)做出判斷,精確地測算出這一年的產(chǎn)量或者遭遇病蟲害的風險。這些技術的應用理應使人感動,它們真真切切地證明了科技使生活更美好。
谷歌與圖像識別
此次的圖像字幕技術讓谷歌在圖像識別領域又進了一步。早在谷歌還沒有撤出中國市場的時候,谷歌就曾推出過圖像搜索引擎。雖然準確率總不能讓人滿意,且還會搜索出一些完全沒有聯(lián)系的圖片,但在當時的確不失為一個創(chuàng)舉。盡管不少網(wǎng)友都曾調侃“敢不敢把自己的照片谷歌一下”,但就我進行的幾次實驗而言,谷歌圖片搜索還是有一定準確度的,它曾經(jīng)成功地通過我拍攝的黃浦江的照片搜索出了許多上海的夜景照片。