在未來,實現(xiàn)“所見即所得”會是電商的重要方向,圖片搜索更將成為人們獲取信息的常態(tài)。圖像識別在手機(jī)淘寶的“拍立淘”產(chǎn)品中已經(jīng)開始應(yīng)用,通過手機(jī)拍照即可搜索相似商品,2015年雙11當(dāng)天,千萬消費者使用了“拍立淘”功能,創(chuàng)造了超過數(shù)千萬元的銷售額。
圖中文字識別(OCR)一直是計算機(jī)視覺領(lǐng)域的難點。阿里巴巴平臺很多營銷創(chuàng)意、商品都以圖片形式存在,同時,也有一些商家在圖片中內(nèi)嵌違規(guī)的信息實現(xiàn)惡意推廣的目的,圖片內(nèi)文字違規(guī)是比例相當(dāng)大的一類,而傳統(tǒng)監(jiān)控手段多以人工肉眼來審核,費時費力,尤其是隨著圖片數(shù)量越來越大,這幾乎已成為不可完成的任務(wù)。從2014年開始,阿里媽媽圖像團(tuán)隊開始重點攻堅O(shè)CR技術(shù),通過機(jī)器視覺的方式從圖片中識別出文字,從而鑒別出違規(guī)的文案信息。
2016年6月,阿里巴巴旗下廣告交易平臺阿里媽媽圖像團(tuán)隊的OCR(圖中文字識別)技術(shù)刷新了ICDAR Robust Reading競賽數(shù)據(jù)集的全球最好成績,并大幅超越第二名。借助這一領(lǐng)先的OCR技術(shù),阿里媽媽圖像團(tuán)隊能夠以95%的超高準(zhǔn)確率識別圖中違規(guī)文字信息,有效過濾商家惡意推廣,維護(hù)消費者權(quán)益。2015年,阿里媽媽累計屏蔽了4600萬條惡意推廣。
阿里綠網(wǎng)依托于阿里巴巴全生態(tài)體系,擁有海量的特征樣本及豐富的數(shù)據(jù)模型分析經(jīng)驗,也利用OCR技術(shù)進(jìn)行了黃色圖片鑒別。根據(jù)技術(shù)人員的測試,通過人工智能技術(shù)鑒別黃色圖片,準(zhǔn)確率高達(dá)99.6%以上。