科學(xué)家面對(duì)的最耗費(fèi)時(shí)間的工作是什么?有什么樣的工具能掃除這些障礙?
數(shù)據(jù)分析師花費(fèi)一半以上的時(shí)間清理和轉(zhuǎn)換數(shù)據(jù),而不是從中提取商業(yè)智能,這并不稀奇。數(shù)據(jù)儲(chǔ)存的規(guī)模不斷增大,數(shù)據(jù)類型也在激增。新一代的工具蜂擁而至,并承諾把復(fù)雜的工具送到不依賴數(shù)據(jù)的科學(xué)家的手上。
技術(shù)領(lǐng)域最熱門(mén)的職位之一是數(shù)據(jù)科學(xué)家,或許只有最新出現(xiàn)的首席高管職位:首席數(shù)據(jù)科學(xué)家能超越他們。顯而易見(jiàn),人們對(duì)這種趨勢(shì)一直存在質(zhì)疑,來(lái)自美國(guó)科技網(wǎng)站InfoWorld的 Yves de Montcheuil曾引用過(guò)一則笑話,數(shù)據(jù)學(xué)家就是住在加利福尼亞州的商業(yè)分析師。
每個(gè)公司都需要把公司的數(shù)據(jù)轉(zhuǎn)換為商業(yè)智能,這并不是什么有趣的事,這就是數(shù)據(jù)科學(xué)家承擔(dān)主導(dǎo)責(zé)任的時(shí)候。但隨著數(shù)據(jù)數(shù)量和種類的激增,數(shù)據(jù)科學(xué)家發(fā)現(xiàn),他們大部分的時(shí)間都花費(fèi)在清理和轉(zhuǎn)換數(shù)據(jù),而不是分析數(shù)據(jù),并把它們告訴給企業(yè)經(jīng)理。
最近,IT項(xiàng)目眾包公司CrowdFlower的數(shù)據(jù)科學(xué)家進(jìn)行了一項(xiàng)調(diào)查(需要注冊(cè)可查看)。調(diào)查發(fā)現(xiàn),三分之二的分析人員認(rèn)為清理和組織數(shù)據(jù)是它們最費(fèi)時(shí)的工作,52%稱他們最大的障礙是數(shù)據(jù)質(zhì)量差。受訪者說(shuō)出了在它們工作中使用的48種不同的技術(shù),最受歡迎的是Excel(55.6%),其次是開(kāi)源語(yǔ)言研究(43.1%),和Tableau數(shù)據(jù)可視化軟件(26.1%)。
▲來(lái)源:CrowdFlower公司
數(shù)據(jù)科學(xué)家認(rèn)為它們最大的挑戰(zhàn)是清理數(shù)據(jù)花費(fèi)時(shí)間,數(shù)據(jù)質(zhì)量差,缺少分析時(shí)間,以及無(wú)效的數(shù)據(jù)建模。
是什么抑制了數(shù)據(jù)分析的發(fā)展?被調(diào)查的數(shù)據(jù)科學(xué)家列舉出,包括缺少有效滿足他們工作需要的工具(54.3%),組織沒(méi)有清楚地說(shuō)明目標(biāo)和宗旨(52.3%),以及培訓(xùn)投資不足(47.7%)。
▲來(lái)源:CrowdFlower公司
缺乏工具,目標(biāo)不明確,不注重培訓(xùn)被報(bào)告為影響數(shù)據(jù)科學(xué)家效率的主要障礙。
承諾將滿足大數(shù)據(jù)分析師需要的新工具
在技術(shù)領(lǐng)域有一個(gè)基本的課題:早期只有少數(shù)精英需要理解和使用知識(shí)、工具,隨著時(shí)間的推移,產(chǎn)品日益改進(jìn),價(jià)格降低,企業(yè)適應(yīng),技術(shù)逐漸成為了主流。新的數(shù)據(jù)分析工具蜂擁而至,承諾把技術(shù)的效益帶給非科研人員。
2014年8月17日,Steve Lohr在紐約時(shí)報(bào)上刊登了幾種產(chǎn)品的簡(jiǎn)介。例如,ClearStory Data公司的軟件結(jié)合多個(gè)來(lái)源的數(shù)據(jù),并轉(zhuǎn)換成圖表、地圖和其他圖形。在數(shù)據(jù)準(zhǔn)備問(wèn)題上Paxata公司采取了不同方式,他們的軟件通過(guò)各種可視化工具對(duì)數(shù)據(jù)進(jìn)行檢索、清理,和混合用于分析。
這家不以營(yíng)利為目的的知識(shí)開(kāi)放實(shí)驗(yàn)室,號(hào)稱是一個(gè)為“公民駭客、數(shù)據(jù)管理者,以及對(duì)技術(shù)和資訊結(jié)合的可能性產(chǎn)生興趣的普通公民”提供的社區(qū)。這個(gè)組織正在招募“數(shù)據(jù)管理員”志愿者,來(lái)維護(hù)核心數(shù)據(jù)集,例如國(guó)內(nèi)生產(chǎn)總值和ISO代碼??哲娍偹玖畈康腞ufus Pollock于2015年1月3日對(duì)該項(xiàng)目進(jìn)行了描述。
▲來(lái)源:知識(shí)開(kāi)放實(shí)驗(yàn)室
知識(shí)開(kāi)放實(shí)驗(yàn)室正在尋找志愿者程序員,策劃核心數(shù)據(jù)集并作為零阻力數(shù)據(jù)計(jì)劃的一部分。
沒(méi)有比使用Morpheus更簡(jiǎn)單和直接的方式來(lái)管理異構(gòu)MySQL、MongoDB、Redis和ElasticSearch數(shù)據(jù)庫(kù)。儀表板上的一次單擊,Morpheus能使你在混合云上無(wú)縫提供、監(jiān)控和分析SQL、NoSQL和內(nèi)存數(shù)據(jù)庫(kù)。你創(chuàng)造每個(gè)的數(shù)據(jù)庫(kù)實(shí)例都包括一個(gè)內(nèi)置的容錯(cuò)和故障的完整副本集。