秦嬌目前所在的這家公司,瞄準(zhǔn)的就是這片市場(chǎng)——人工智能公司需要的數(shù)據(jù)既要根據(jù)需求定制,又要保證標(biāo)注質(zhì)量,同時(shí)數(shù)量還十分龐大。大部分人工智能公司自身和眾包平臺(tái)都無(wú)法同時(shí)滿足這三種要求,因而誕生了專(zhuān)業(yè)的數(shù)據(jù)標(biāo)注公司。
這家「數(shù)據(jù)加工」公司的一二層,全部是負(fù)責(zé)標(biāo)注數(shù)據(jù)的員工。為滿足不同訂單需求,員工們被劃分成不同小組:
有的小組負(fù)責(zé)勾畫(huà)圖片中人體的關(guān)節(jié)點(diǎn),將復(fù)雜的瑜伽姿勢(shì)抽象成點(diǎn)和線,可以用來(lái)訓(xùn)練識(shí)別人體體態(tài)的模型;
有的小組要為路況圖片中的車(chē)輛、摩托車(chē)、自行車(chē)和行人打上邊框,并標(biāo)注行進(jìn)方向和是否有遮擋,這類(lèi)圖片多用來(lái)訓(xùn)練智能安防攝像頭的識(shí)別能力;
有的小組需要分毫不差的描繪建筑物的邊緣,將靜止畫(huà)面中鱗次櫛比的大樓一一分割,標(biāo)注成不同的色塊,這類(lèi)數(shù)據(jù)多用在自動(dòng)駕駛中車(chē)輛對(duì)環(huán)境的認(rèn)知;
有的正將雷達(dá)掃描出的障礙物 3D 線條一一還原成實(shí)物,長(zhǎng)方體是建筑、綠色的是樹(shù)木,這些內(nèi)容會(huì)被用來(lái)訓(xùn)練雷達(dá)數(shù)據(jù)和真實(shí)世界的關(guān)聯(lián)性。
標(biāo)注作業(yè)有時(shí)并不簡(jiǎn)單,比如這種關(guān)聯(lián)性標(biāo)注
除圖片外,這里還有負(fù)責(zé)視頻標(biāo)注的員工。她們需要從每段視頻中抽出 10 幀,標(biāo)注相近兩幀中物體的方向和坐標(biāo)的變化。這些數(shù)據(jù)也許會(huì)被用來(lái)訓(xùn)練機(jī)器對(duì)物體連貫性的感知,也許用來(lái)訓(xùn)練機(jī)器預(yù)判物體的位置變化。
與大部分制造業(yè)類(lèi)似,這里的各個(gè)小組都有自己的管理者。管理者之上是項(xiàng)目經(jīng)理,然后才是秦嬌這樣為數(shù)不多的高層管理者。員工「生產(chǎn)」的內(nèi)容會(huì)經(jīng)過(guò)質(zhì)檢人員的核驗(yàn),全部合格后才會(huì)最終交付項(xiàng)目方。嚴(yán)格的流程和管理制度,保證了穩(wěn)定的標(biāo)注效率和質(zhì)量。
「很多人認(rèn)為大數(shù)據(jù)就是呼叫中心,我們發(fā)展的大數(shù)據(jù)和其他人不一樣,整個(gè)貴州只有我們做數(shù)據(jù)精加工?!箤?duì)于公司目前在做的業(yè)務(wù),秦嬌顯得非常驕傲。
的確,這些結(jié)構(gòu)化后數(shù)據(jù),將成為這場(chǎng)人工智能大潮中的公司們的立足之本。不僅幫助它們提升模型的準(zhǔn)確度、提升產(chǎn)品的可靠性,甚至影響它們的發(fā)展軌跡和融資進(jìn)程。
三
「數(shù)據(jù)加工」公司所在地距「大數(shù)據(jù)之城」貴陽(yáng)五十多公里,是一座只接受科技公司入駐的「數(shù)字小鎮(zhèn)」。剛剛落成入駐率不高,加上位置偏遠(yuǎn)、人跡罕至,園區(qū)顯得十分安靜。
小鎮(zhèn)多是這樣的彩色尖頂小樓,綠化豐富,十分安靜
有趣的是盡管位處山林之中,小鎮(zhèn)的隔壁有一間規(guī)模不小的高職學(xué)校,學(xué)校的學(xué)生構(gòu)成了這家公司目前主要的員工來(lái)源。除上課外,學(xué)生們每天有大約 6 個(gè)小時(shí)可以工作,「易于管理、盡職盡責(zé)」是秦嬌給這些學(xué)生的評(píng)價(jià)。
高職學(xué)校初建的目的是教育扶貧,因此學(xué)生們大多來(lái)自貧困山區(qū),學(xué)校會(huì)提供不少補(bǔ)助和獎(jiǎng)學(xué)金。在數(shù)據(jù)加工公司兼職賺來(lái)的錢(qián)不僅足夠生活,有些學(xué)生還會(huì)拿出一部分補(bǔ)貼家用。偶爾這份工作還能成為職業(yè)跳板,「我們的學(xué)生踏實(shí)又努力,有的去北京實(shí)習(xí),因?yàn)槭煜?biāo)注工作、又認(rèn)真,反饋回來(lái)說(shuō)比同樣實(shí)習(xí)的北京大學(xué)生強(qiáng)得多」。
學(xué)校走廊的墻上也貼著不少相似的學(xué)生案例。在描述學(xué)生們?nèi)雽W(xué)前情況的文字中,不可避免的包含著「貧窮」、「雙亡」、「殘疾」等詞匯。其中一張照片中父親、母親和學(xué)生坐在寨樓的木板地上,身后昏暗的空間里沒(méi)有任何擺設(shè);另一張照片中的學(xué)生摟著患病的哥哥;還有一張照片,面無(wú)表情的學(xué)生正坐在床一樣的地方,背景是用黑白報(bào)紙糊著的墻。后來(lái),她們都憑努力改變了自己和家庭的命運(yùn)。
對(duì)這份工作能帶給學(xué)生的機(jī)會(huì)與回報(bào),「數(shù)據(jù)加工」公司的 COO 李政同樣十分篤定。但比起秦嬌對(duì)于數(shù)據(jù)標(biāo)注行業(yè)的信心滿滿,他則顯得有些憂心忡忡。畢業(yè)于北京航空航天大學(xué)的他清晰的意識(shí)到,現(xiàn)階段的數(shù)據(jù)標(biāo)注還是勞動(dòng)密集型產(chǎn)業(yè),和南方工廠沒(méi)什么不同。學(xué)生們都只是流水線上來(lái)料加工的一環(huán),處在價(jià)值鏈的底端。只有向前一步,找到更深入行業(yè)的業(yè)務(wù)模式,才能從已經(jīng)開(kāi)始熱絡(luò)的數(shù)據(jù)加工行業(yè)中脫穎而出。