把手機(jī)攝像頭對(duì)準(zhǔn)菜單上的法語菜名,屏幕上實(shí)時(shí)顯示出翻譯好的中文菜名;將全世界圖書館的藏書轉(zhuǎn)化為電子書;街景車游走于大街小巷,拍攝街景的同時(shí)也從街景圖像中自動(dòng)提取文字標(biāo)識(shí),讓地圖信息更豐富更準(zhǔn)確……這些場(chǎng)景的背后有一個(gè)共同的關(guān)鍵技術(shù)——OCR (Optical CharacterRecognition),光學(xué)字符識(shí)別。
OCR讓電腦“讀”懂世界
鼠標(biāo)發(fā)明人Douglas Engelbart曾經(jīng)針對(duì)人工智能的簡(jiǎn)稱AI提出了另一個(gè)理念——Augmented Intelligence,增強(qiáng)智能。在他看來,人已經(jīng)足夠聰明,我們無需再去復(fù)制人類,而是可以從更加實(shí)用的角度,將人類的智能進(jìn)一步延伸,讓機(jī)器去增強(qiáng)人的智能。
智能眼鏡就是這樣的產(chǎn)品,去超市的時(shí)候帶上一副,看到心儀商品上的文字,自動(dòng)搜索出詳細(xì)信息:生產(chǎn)商情況、在不同電商平臺(tái)的價(jià)格等等。讓智能眼鏡讀懂文字的正是OCR技術(shù)。OCR本質(zhì)上是利用光學(xué)設(shè)備去捕獲圖像,今天可以是手機(jī)、照相機(jī),未來可以是智能眼鏡、可穿戴設(shè)備等,就像人的眼睛一樣,只要有文字,就去認(rèn)出來。
我們也可以設(shè)想一下OCR在未來工作中的應(yīng)用場(chǎng)景:每次工作會(huì)議后,無需再把白板上的討論內(nèi)容抄寫下來,然后群發(fā)郵件布置任務(wù),只要將白板用手機(jī)等智能設(shè)備拍照留存,系統(tǒng)便能自動(dòng)識(shí)別并分檢出相關(guān)人員的后續(xù)工作,并將待辦事項(xiàng)自動(dòng)存放到各自的電子日歷中。
事實(shí)上,我們已經(jīng)向這個(gè)場(chǎng)景邁進(jìn)了一步,微軟前不久推出的Office Lens應(yīng)用,已經(jīng)可以通過視覺計(jì)算技術(shù)自動(dòng)對(duì)圖像進(jìn)行清理并把它保存到OneNote,而OneNote中基于云端的OCR技術(shù)將對(duì)圖片進(jìn)行文字識(shí)別,隨后你就可以擁有一個(gè)可編輯、可搜索的數(shù)字文件,為上述未來應(yīng)用場(chǎng)景打下基礎(chǔ)。微軟幾年前推出的手機(jī)應(yīng)用Translator,除了支持文本和語音翻譯外,還能用手機(jī)拍攝不同語言的菜單或指示牌,翻譯結(jié)果立即浮現(xiàn)于原文之上。Office Lens和Translator這兩款產(chǎn)品中的“中日韓”OCR核心技術(shù)就來自微軟亞洲研究院的語音團(tuán)隊(duì)。
從平板掃描儀到前端手機(jī)后端云
回過頭來看,OCR技術(shù)經(jīng)歷了怎樣的發(fā)展歷程呢?早在20世紀(jì)50年代,IBM就開始利用OCR技術(shù)實(shí)現(xiàn)各類文檔的數(shù)字化,早期的OCR設(shè)備龐大而復(fù)雜,只能處理干凈背景下的某種印刷字體。20世紀(jì)80年代,平板掃描儀的誕生讓OCR進(jìn)入商用階段,設(shè)備更為輕便靈巧,可以處理的字體數(shù)量也增多,但對(duì)文字的背景要求仍然很高,需要很好的成像質(zhì)量。
平板掃描儀對(duì)印刷體文本的識(shí)別率在20世紀(jì)90年代就已經(jīng)達(dá)到99%以上,可謂OCR應(yīng)用迎來的第一個(gè)高潮。當(dāng)時(shí)最著名事件是谷歌數(shù)字圖書館,谷歌還申請(qǐng)了圖書掃描專利,實(shí)現(xiàn)了批量化的高速掃描。在此期間,手寫字體的識(shí)別也在并行發(fā)展,被廣泛用于郵件分揀、支票分類、手寫表格數(shù)字化等領(lǐng)域。
這樣的成就一度讓大家誤以為OCR技術(shù)已經(jīng)登峰造極,但從21世紀(jì)開始,準(zhǔn)確地說是自從2004年擁有300萬像素?cái)z像頭的智能手機(jī)誕生之日起,這一情況發(fā)生了根本改變。越來越多的人隨手拿起手機(jī)拍攝所看到的事物和場(chǎng)景,而此類自然場(chǎng)景中的文字識(shí)別難度遠(yuǎn)遠(yuǎn)高于平板掃描儀時(shí)期,即便是印刷字體,也不能得到很高的識(shí)別率,更別說手寫體了。學(xué)術(shù)界因此將自然場(chǎng)景中的文字識(shí)別作為全新的課題來對(duì)待。
與此同時(shí),云計(jì)算、大數(shù)據(jù)以及通訊網(wǎng)絡(luò)的快速發(fā)展,實(shí)現(xiàn)了智能手機(jī)的24小時(shí)在線,前端采用手機(jī)攝像頭進(jìn)行文字捕捉,后端可以對(duì)其進(jìn)行實(shí)時(shí)分析和處理,二者的結(jié)合讓OCR的未來應(yīng)用模式充滿想象。因此,對(duì)OCR的研究再度成為學(xué)術(shù)界的焦點(diǎn),無論是前端識(shí)別技術(shù)還是后端的關(guān)聯(lián)應(yīng)用領(lǐng)域,都有著無限可能。微軟亞洲研究院的研究員們,也非常有幸加入了這個(gè)大潮。