知道 Google 街景是如何識(shí)別各種千奇百怪的門牌號(hào)的嗎?靠的是它搭建的一個(gè)瘋狂的神經(jīng)網(wǎng)絡(luò)。
我們知道,在受約束環(huán)境下(如文檔處理)的字符識(shí)別技術(shù),比方說 OCR 技術(shù)已經(jīng)被研究得很透。但是對(duì)照片中的多字符文本識(shí)別卻是個(gè)難題,因?yàn)檫@些照片中的字體、顏色、樣式、方向、排列不一,再加上光照、陰影、鏡像、遮蔽等環(huán)境因素影響,還有圖像本身的分辨率、焦點(diǎn)模糊、抖動(dòng)等問題。而傳統(tǒng)的圖像文字識(shí)別,一般要經(jīng)過字符定位、分割和識(shí)別三個(gè)步驟,處理效率不高??紤] Google 街景的每天上傳的圖片量,以往的這些方法顯然缺乏實(shí)用價(jià)值。
為此,Google 開發(fā)了一套大型的神經(jīng)網(wǎng)絡(luò)來處理海量的 Google 街景圖片中的門牌號(hào)識(shí)別問題。這個(gè)神經(jīng)網(wǎng)絡(luò)的代號(hào)是 DistBelief,其學(xué)名是深度卷積神經(jīng)網(wǎng)絡(luò),我們之前曾介紹過這套會(huì)思考的深度學(xué)習(xí)系統(tǒng)。經(jīng)過 DistBelief 訓(xùn)練的這個(gè)大型分布式神經(jīng)網(wǎng)絡(luò),可以把定位、分割和識(shí)別三個(gè)步驟集成到一起,直接對(duì)每一個(gè)像素進(jìn)行操作。其性能隨著神經(jīng)網(wǎng)絡(luò)的深度增加而提高,在 11 層的時(shí)候達(dá)到最高。
根據(jù)論文的數(shù)據(jù),該系統(tǒng)對(duì) SVHN(街景門牌號(hào)數(shù)據(jù)集)中的門牌號(hào)識(shí)別率達(dá) 96%,而單數(shù)字識(shí)別率達(dá) 97.84%,對(duì)于 Google 街景圖庫的上千萬門牌號(hào)的識(shí)別率也超過 90%。該系統(tǒng)每天可識(shí)別百萬門牌號(hào)(不到 1 小時(shí)即可將法國的街景照片中的門牌號(hào)找出來)。目前該系統(tǒng)已經(jīng)幫助 Google 從街景圖中分析出全球近 1 億個(gè)門牌號(hào)。
感興趣的可到此處下載 Google 的這篇論文:Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks。