以為數(shù)據(jù)工程師每天做的就是像 http://hackertyper.net/ 這樣,然后創(chuàng)造了一個又一個偉大的產(chǎn)品嗎?錯了!紐約時報記者采訪了多位大數(shù)據(jù)工程師,他們表示自己 80% 的時間都在當「大數(shù)據(jù)苦工」,干的都是非人類可以想象的枯燥繁瑣的工作——從海量的原始數(shù)據(jù)中提取有用數(shù)據(jù),整理,轉(zhuǎn)換格式,調(diào)整為算法可以理解的同樣格式的規(guī)整數(shù)據(jù)……
因此,這些數(shù)據(jù)工程師稱呼自己為「數(shù)據(jù)清潔工」、「數(shù)據(jù)搬運工」,「數(shù)據(jù)整形師」等等……知名健康追蹤手環(huán)公司 Jawbone 的數(shù)據(jù)科學副總裁 Monica Rogati 向記者透露,對于大部分人,甚至是普通的程序員來說,這種工作都是極端枯燥,完全接受不了的,但對于數(shù)據(jù)工程師來說,這都是他們每天都要做的事情。
華盛頓大學教授,同時也是一家大數(shù)據(jù)創(chuàng)業(yè)公司 Trifacta 創(chuàng)始人的 Jeffrey Heer 教授則表示,直接把算法輸入到一堆原始數(shù)據(jù)中,然后指望結(jié)果能夠自己蹦出來,那簡直就是奇談……數(shù)據(jù)工程師需要把不同種類不同格式的數(shù)據(jù)(非常巨量)轉(zhuǎn)換成為算法可以理解的格式整齊的數(shù)據(jù),因此稱呼數(shù)據(jù)工程師為「數(shù)據(jù)清潔工」也不足為奇。
Iodine 是一家醫(yī)療方面創(chuàng)業(yè)公司。該公司的員工透露,自己的產(chǎn)品能夠通過挖掘國家食藥管理局(FDA)、國家健康中心,以及醫(yī)藥公司提供的文字、圖像等內(nèi)容提供的原始數(shù)據(jù),來為用戶提供藥品的副作用相關(guān)的警示。但事情遠沒有想象的那么簡單。
光嗜睡一條就有「drowsiness」、「somnolence」和「sleepiness」三種說法,讓用戶去看這三個詞肯定都能理解,但別指望算法能夠理解這三個詞代表同一個含義。
因此,所謂的「大數(shù)據(jù)」創(chuàng)業(yè)公司,最近在做的基本就是通過不同的渠道、切入點,來完成一個任務:產(chǎn)生一個標準化的、簡單的數(shù)據(jù)處理軟件,讓數(shù)據(jù)工程師不那么累,直接把所有的原始數(shù)據(jù)輸入進去,提取結(jié)果,簡單如此。帕羅奧托一家名為 ClearStory Data 的創(chuàng)業(yè)公司就在做這樣的事情。
這家公司提供的產(chǎn)品是一個能夠?qū)⒍喾N不同規(guī)格的原始數(shù)據(jù)整合到可視化呈現(xiàn)的表格、圖片或地圖中。該公司 CEO Shahani—Mulligan 表示,ClearStory 的產(chǎn)品能夠整合 6 到 8 種不同的數(shù)據(jù)格式,提供處的結(jié)果適合對于數(shù)據(jù)一竅不通的終端用戶使用。
你也可以手動來統(tǒng)計這些數(shù)據(jù),我打賭你永遠也找不到足夠的數(shù)據(jù)工程師來做這些事……