在大部分人看來,人工智能是個(gè)有些「科幻」的詞匯,代表小說電影中和人類長相相似、或溫柔或冷酷的機(jī)器人。
稍微熟悉一點(diǎn),這份印象又變成冷冰冰的GPU陣列、復(fù)雜多層的神經(jīng)網(wǎng)絡(luò)和一大串佶屈聱牙的專有名詞。能接觸它們的除了工程師,就是科學(xué)家。
也許這份印象需要再度刷新一次——人工智能,真的需要不少「人工」。
一
秦嬌今年剛滿30歲,幾個(gè)月前剛剛從呼叫中心跳槽到一家「數(shù)據(jù)加工」公司。雖然跨了行業(yè),她并不覺得兩份工作有什么不同,都是按照甲方的要求和己方的工作節(jié)奏,把人手安排到一個(gè)又一個(gè)項(xiàng)目中去。
公司剛成立不到一年,眼下業(yè)務(wù)大多是標(biāo)注數(shù)據(jù),即根據(jù)項(xiàng)目方要求,人工為圖片、視頻和語音內(nèi)容打標(biāo)簽、做標(biāo)記。標(biāo)注好的數(shù)據(jù)會被人工智能公司用來訓(xùn)練算法模型,然后應(yīng)用到圖像識別、語音識別等不同領(lǐng)域。
通常來說,數(shù)據(jù)標(biāo)注得越準(zhǔn)確、數(shù)量越多,模型的效果就越好。自然,產(chǎn)品的效果就會更好。
一旦要求質(zhì)量,每個(gè)人的產(chǎn)出量就不會太多。熟練者平均一天可以標(biāo)注40張圖片,前提是只需要為圖片中的物體打框、標(biāo)注類別和前后關(guān)系。如果涉及到刻畫建筑物邊緣等復(fù)雜細(xì)節(jié),一天標(biāo)注 10 張已是極限。
圖片為簡單標(biāo)注方式的一種
但需要處理的數(shù)據(jù)訂單往往以「萬」為單位。最新的需求是 6 萬張圖片,7 天內(nèi)完成。理論上這個(gè)訂單需要 214 個(gè)人共同工作 7 天,秦嬌手頭只有不到 100 個(gè)人,其中一部分還要完成其它項(xiàng)目。幾次秦嬌都對著電話那頭擺出不耐煩的神情,「你跟他說,要我去死好不好」。
與擁有 1,500 萬張標(biāo)注圖片的數(shù)據(jù)集ImageNet相比,只有 6 萬張圖片的項(xiàng)目顯得十分渺校不過大部分人可能很難想象,是來自 167 個(gè)國家的 48,940 名工作者,花費(fèi)了 2 年時(shí)間,清理、分類、標(biāo)記了近十億張通過互聯(lián)網(wǎng)搜集到的圖片,才得到這個(gè)有 1,500 萬張圖片的數(shù)據(jù)集。其所耗費(fèi)的時(shí)間與人力,遠(yuǎn)非一般項(xiàng)目可比。
數(shù)據(jù)龐大又開源,ImageNet很快成為成為研究圖像識別的首眩不論Andrew Ng(吳恩達(dá))還是 Jeff Dean,涉足這一領(lǐng)域研究者都使用過 ImageNet。但 ImageNet 有自己的弱點(diǎn),標(biāo)注框太大、標(biāo)注方式少和不時(shí)出現(xiàn)的錯(cuò)誤,使它難以被用來訓(xùn)練實(shí)際應(yīng)用的算法模型。
人工智能公司們必須想盡辦法,積累符合自身應(yīng)用方向,標(biāo)注得更細(xì)致、更準(zhǔn)確的數(shù)據(jù)。在初創(chuàng)公司招聘工程師的需求中,「有收集標(biāo)注數(shù)據(jù)的能力」有時(shí)也會被寫進(jìn)其中。某種程度上,高質(zhì)量的標(biāo)注數(shù)據(jù)決定了一家人工智能公司競爭力。
盡管互聯(lián)網(wǎng)的確催生了浩如煙海的內(nèi)容,但標(biāo)注這件需要耐心和專注的「小事」,暫且還要靠人的幫忙。
二
在專業(yè)的數(shù)據(jù)標(biāo)注公司出現(xiàn)前,眾包平臺往往是大部分公司的選擇。
人們認(rèn)為靈活性更高的眾包方式能適應(yīng)不穩(wěn)定的數(shù)據(jù)需求,價(jià)格成本也更低。某知名數(shù)據(jù)眾包平臺據(jù)稱擁有超過 5,000 名數(shù)據(jù)標(biāo)注專員,單日可處理超過 200 萬條數(shù)據(jù),能「穩(wěn)定提供數(shù)據(jù)標(biāo)注服務(wù)」。
數(shù)據(jù)標(biāo)注是所有數(shù)據(jù)眾包平臺的核心業(yè)務(wù),除此之外還有數(shù)據(jù)清洗、數(shù)據(jù)采集等等
不過從單日單人數(shù)據(jù)比(400 條數(shù)據(jù)/人)可以推測出,其標(biāo)注質(zhì)量也許并非所說的那么可靠。由于參與眾包標(biāo)注的工作者數(shù)量很多,專業(yè)背景和工作能力參差不齊,「收集到的標(biāo)注內(nèi)容中存在噪聲甚至錯(cuò)誤,不能直接作為正確的標(biāo)注使用」早已是不爭的事實(shí)。如何解決眾包平臺的質(zhì)量缺陷,已經(jīng)成為近年來博碩士論文的議題之一。
通過數(shù)據(jù)交易平臺購買已標(biāo)注好的數(shù)據(jù)包也是一種選擇。但問題似乎又繞回為什么人工智能公司要自己標(biāo)注數(shù)據(jù):不同的應(yīng)用方向需要的數(shù)據(jù)內(nèi)容不同,甚至標(biāo)注方式也不同。