自然場(chǎng)景下的文字檢測(cè)獲突破性進(jìn)展
自然場(chǎng)景圖像中的文字識(shí)別大大難于掃描儀圖像中的文字識(shí)別,因?yàn)樗哂袠O大的多樣性和明顯的不確定性。如文字中包含多種語(yǔ)言,每種語(yǔ)言含有多種字母,每個(gè)字母又可以有不同的大小、字體、顏色、亮度、對(duì)比度等;文字通常以文本行的形式存在,但文本行可能有不同的排列和對(duì)齊方式,橫向、豎向、彎曲都有可能;因拍攝圖像的隨意性,圖像中的文字區(qū)域還可能會(huì)產(chǎn)生變形(透視和仿射變換)、殘缺、模糊斷裂等現(xiàn)象。
自然場(chǎng)景圖片中的文字多樣性示例
與傳統(tǒng) OCR 技術(shù)中的掃描文檔圖像相比,自然場(chǎng)景圖像的背景更為復(fù)雜。如文字可能不是寫在平面上而是在曲面上;文字區(qū)域附近有非常復(fù)雜的紋理和噪聲;圖像中的非文字區(qū)域有著跟文字區(qū)域非常相似的紋理,比如窗戶、樹葉、柵欄、磚墻等。這些復(fù)雜背景會(huì)極大增加誤檢率。
由于自然場(chǎng)景下的文字識(shí)別難度大,微軟亞洲研究院團(tuán)隊(duì)對(duì)相關(guān)技術(shù)和算法進(jìn)行了針對(duì)性的優(yōu)化和創(chuàng)新,從三個(gè)方面對(duì)文本檢測(cè)技術(shù)進(jìn)行了改進(jìn),并取得突破。通常,OCR識(shí)別的步驟可以分為兩步:首先是文本檢測(cè)(Text detection),將文字從圖片中提取出來(lái);然后,對(duì)文本進(jìn)行識(shí)別(Recognition),此次的突破主要是在文本檢測(cè)環(huán)節(jié)的兩個(gè)子階段。
階段①:采用新算法,檢測(cè)準(zhǔn)確高效
一個(gè)字母或文字通常可以分為若干個(gè)連通區(qū)域,如o就擁有一個(gè)連通區(qū)域,i則擁有兩個(gè)連通區(qū)域,文本檢測(cè)首先要從圖像中切割出可能存在的文字,即候選連通區(qū)域,然后再對(duì)其進(jìn)行文字/非文字分類。
在確定候選連通區(qū)域階段,微軟亞洲研究院團(tuán)隊(duì)在傳統(tǒng)檢測(cè)方法ER(Extremal Region,極值區(qū)域)和MSER(Maximally Stable Extremal Region,最大平穩(wěn)極值區(qū)域)基礎(chǔ)之上創(chuàng)新地采用了對(duì)比極值區(qū)域CER(Contrasting Extremal Region),CER是跟周圍的背景有一定對(duì)比度的極值區(qū)域,這個(gè)對(duì)比度至少要強(qiáng)到能夠被人眼感知到,在低對(duì)比度的圖像上比MSER效果更好,而且獲得的候選連通區(qū)域數(shù)量遠(yuǎn)小于ER,候選范圍大大縮小,提高了算法的效率。
為了提高所獲得的候選連通區(qū)域的質(zhì)量,微軟亞洲研究院團(tuán)隊(duì)決定增加一個(gè)算法環(huán)節(jié)去增強(qiáng)CER。尤其在圖像模糊、分辨率低或者噪聲較多時(shí),提取出來(lái)的CER有可能會(huì)含有冗余像素或者噪聲,這些冗余像素或者噪聲的存在會(huì)使得后面的文字/非文字分類問(wèn)題變得更為復(fù)雜。
采用基于感知的光照不變(Perception-based IlluminationInvariant, PII)顏色空間中的顏色信息去增強(qiáng)CER可算是此次算法優(yōu)化的另一個(gè)創(chuàng)新之舉,利用顏色信息盡可能濾除CER中的冗余像素或者噪聲,從而得到Color-enhanced CER。該顏色空間具有視覺感知一致性,而且對(duì)光照不敏感,更接近人眼對(duì)顏色的判斷。
受噪聲影響的CER示例
在實(shí)際操作中,并不是每個(gè)CER都需要通過(guò)顏色信息來(lái)增強(qiáng),因?yàn)橛泻芏郈ER本身顏色均勻,沒有噪聲,尤其是在圖片質(zhì)量很高的時(shí)候。因此,在對(duì)CER進(jìn)行增強(qiáng)操作之前我們會(huì)先判斷該CER是否需要增強(qiáng)操作,以減少不必要的計(jì)算復(fù)雜度。
對(duì)CER的顏色增強(qiáng)效果示例