摸索了近一年,李政拓展了包括采集數(shù)據(jù)在內(nèi)的不少業(yè)務(wù)。所謂采集數(shù)據(jù),是指自主拍攝符合項目方要求的人像圖片,如一個人正面、45 度、60 度以及佩戴各類裝飾物的照片。這些圖片可以用來訓練計算機對于同一張人臉在不同狀態(tài)下識別的準確性和關(guān)聯(lián)性,是目前大部分專注人臉的計算機視覺公司都有的需求。
有時,表情也在規(guī)定在數(shù)據(jù)采集的要求中
在自己搭建的攝影棚中,「數(shù)據(jù)加工」公司已經(jīng)完成了好幾份訂單。主角當然還是學生們,她們排隊依次進入影棚,按照要求擺好姿勢拍下幾張照片后,再分別戴上口罩、墨鏡、帽子繼續(xù)拍攝。一套照片往往包含 10 幾張,一天能拍攝 100 多套。比起安防公司自己搜集或拍攝照片,這套標準流程和足夠的樣本數(shù)(學校至少有上千個學生)的確有不小競爭力。
除此之外,她們還可以承接小語種的語料收集工作。地處西南、臨近東南亞,當?shù)氐娜穗H關(guān)系鏈和頻繁的商務(wù)交往能提供不少便利。
「只做來料加工肯定不行,」李政非常堅定,「我們最近正在培訓一些技術(shù)人員,懂技術(shù)才能和項目方更好的溝通需求,把需求更好的描述出來,我們才能更好的滿足?!?/p>
四
「標注真的是個辛苦活。」提起「數(shù)據(jù)標注」四個字,華院數(shù)據(jù)的首席科學家尹相志不禁咧了咧嘴。
幾個月前,華院數(shù)據(jù)剛剛舉辦過一次大數(shù)據(jù)應用比賽,包含識別復雜圖像中的動物、通過行車紀錄儀的圖像還原駕車操作場景等多個環(huán)節(jié)。在「通過賣場貨架圖片自動計算產(chǎn)品的貨架占有率」這項測試中,她們拍攝了 1600 多張真實的貨架圖片作為原始數(shù)據(jù)。
比賽的目的,是通過不到兩千張的「小數(shù)據(jù)樣本」,實現(xiàn)往往需要大量樣本才能實現(xiàn)的圖像識別。為了讓比賽的難度不那么「變態(tài)」,她們還為選手們提供了「精細化標注」后的貨架圖片——所謂精細化標注,就是貨架上每一包緊挨著的零食、泡面,都要延邊緣仔細劃分。
圖中左側(cè)為從真實貨架照片中挖取出的同類商品碎片;右側(cè)為對貨架上不同商品的標注,每種灰度對應一種商品
「深度學習最大的問題還是樣本數(shù),這里考的其實是怎樣通過小樣本進行學習?!雇ㄟ^這項挑戰(zhàn)的訣竅之一,是將原本 1000 多張圖片根據(jù)提供的邊緣裁切保留純粹的產(chǎn)品圖像,透過數(shù)據(jù)增強技術(shù)放大到數(shù)十萬張,再根據(jù)這些增強后的圖片建模就可以減少誤差。精細化標注不僅能幫助解決樣本稀少的問題,對于過往需要幾十萬圖片才能訓練模型的模式也帶來了啟發(fā)。
不過精細化標注并不是什么容易事,這一千多張圖片的標注耗費了 12 個人大半個月時間,負責標注工作的組員「幾近崩潰」。如果有人能承擔復雜標注這項令人「崩潰」的工作,并善于滿足復雜的標注要求,人工數(shù)據(jù)標注能成為一項長遠發(fā)展的產(chǎn)業(yè)嗎?
「近期需求還是很大,」尹相志想了想,「但這個行業(yè)可能只有 5 年時間,大家都在想各種辦法,比如開源,比如小樣本學習本身?!?/p>
除了小樣本學習,人們也在思考是否能合成數(shù)據(jù)。圖像識別領(lǐng)域的研究者們正在嘗試通過圖形學方法,制造出逼真的、和真正訓練圖像非常相似的圖片。理論上這種方法能夠產(chǎn)生大量直接帶有標注的數(shù)據(jù),但能不能「真實」,還需要圖形學上的進步。
ImageNet 的締造者李飛飛同樣意識到精細化標注的力量,正在進行一份名為「Visual Genome」的工作。Visual Genome 有更多、更窄的框,更詳細的名詞標注,以及位置關(guān)系和動作關(guān)系。
目前 Visual Genome 中有 10.8 萬張圖片。
對于數(shù)據(jù)標注這件不大不小的麻煩事,每個從業(yè)者都有自己的看法。有人諱莫如深,將話題轉(zhuǎn)換成互聯(lián)網(wǎng)是最龐大的數(shù)據(jù)集;但事實上所有人都知道采集到的數(shù)據(jù)無法直接使用。有人坦誠不少數(shù)據(jù)需要學生兼職或靠自己的員工標注,對質(zhì)量的不滿促使有些公司干脆成立了數(shù)據(jù)標注部門;還有人透露,如果用對了關(guān)鍵詞,在淘寶也能找到不少外包商。