算法提取出來的候選連通區(qū)域結(jié)果示例
階段②:創(chuàng)新分類,檢測更高質(zhì)
當(dāng)獲得了高質(zhì)量的候選連通區(qū)域,就需要對其中的字符進(jìn)行分辨,確定其是否為文字或非文字,微軟亞洲研究院團(tuán)隊(duì)創(chuàng)新地提出了一套基于淺層神經(jīng)網(wǎng)絡(luò)的文字/非文字分類算法,比以往的算法更加有效。
該算法根據(jù)文字本身的特性采用分治策略將原始問題空間劃分為5個(gè)子空間,每個(gè)子空間對應(yīng)一類文字樣本,分別命名為Long類,Thin類,F(xiàn)ill類,Square-large類和 Square-small類(如下圖所示),于是每個(gè)候選連通區(qū)域被劃分到這5類中的一種。
文字類問題空間劃分示例
在每個(gè)子空間中,微軟亞洲研究院團(tuán)隊(duì)創(chuàng)新地利用無歧義學(xué)習(xí)策略訓(xùn)練一個(gè)相應(yīng)的淺層神經(jīng)網(wǎng)絡(luò),作為該子空間的文字/非文字分類器,我們可以將該神經(jīng)網(wǎng)絡(luò)看作是一個(gè)黑盒子,在經(jīng)過大量學(xué)習(xí)之后,它便能較為準(zhǔn)確的將文字與非文字分類。
每次分類動(dòng)作包括兩個(gè)階段——預(yù)剪枝(Pre-pruning)階段和驗(yàn)證(Verification)階段。在預(yù)剪枝階段,分類器的任務(wù)是盡可能濾除無歧義的非文字候選連通區(qū)域;在驗(yàn)證階段,則通過引入更多信息來消除孤立連通區(qū)域的歧義性,從而進(jìn)一步濾除有歧義的非文字候選連通區(qū)域。
2014年8月,在瑞典首都斯德哥爾摩舉辦的國際模式識(shí)別大會(huì)(ICPR)上,微軟亞洲研究院團(tuán)隊(duì)公布的研究成果在自然場景文字檢測的標(biāo)準(zhǔn)數(shù)據(jù)集(ICDAR-2013測試集)上取得了92.1%的檢測精度和92.3%的召回率。此前業(yè)界最好技術(shù)的檢測精度是88.5%,而召回率只有66.5%,多年來這些數(shù)字每年增長只有幾個(gè)百分點(diǎn),微軟的技術(shù)讓自然場景圖像中的文字檢測實(shí)現(xiàn)了突破。
人類需求牽引科技發(fā)展走到今天,智慧的無限延伸決定了世界的無限潛能。10年前的簡單通訊工具手機(jī)如今已成為智慧生活的伴侶,曾經(jīng)只被掃描儀應(yīng)用的OCR技術(shù)亦已煥發(fā)新機(jī)。隨著研究工作的不斷突破和智能設(shè)備的推陳出新,OCR的應(yīng)用也將充滿無限機(jī)會(huì)、無限可能性。
作者簡介:
霍強(qiáng)博士,微軟亞洲研究院首席研究員