因此,要想挖掘出數(shù)據(jù)科學(xué)家,首先要明白他們?cè)跇I(yè)務(wù)中能干什么,其次,他們需要哪些技能?哪些現(xiàn)有的領(lǐng)域會(huì)用到這些技能?
數(shù)據(jù)科學(xué)家首要任務(wù)是在數(shù)據(jù)的海洋中探索發(fā)現(xiàn),他們更喜歡用這種方式看待周圍的世界。他們要在數(shù)字王國里游刃有余,把大量散亂的數(shù)據(jù)變成結(jié)構(gòu)化的可供分析的數(shù)據(jù),還要找出豐富的數(shù)據(jù)源,整合其他可能不完整的數(shù)據(jù)源,并清理成結(jié)果數(shù)據(jù)集。新的競爭環(huán)境中,挑戰(zhàn)不斷地變化,新數(shù)據(jù)不斷地流入,數(shù)據(jù)科學(xué)家需要幫助決策者穿梭于各種分析,從臨時(shí)數(shù)據(jù)分析(ad hoc)到持續(xù)的數(shù)據(jù)交互分析。
數(shù)據(jù)科學(xué)家會(huì)遇到技術(shù)的局限性,但不會(huì)讓技術(shù)阻擾他們尋找新穎的解決方案。當(dāng)他們有所發(fā)現(xiàn),便交流他們的發(fā)現(xiàn),建議新的業(yè)務(wù)方向。通常他們很有創(chuàng)造力的展示視覺化的信息,也讓找到的模式清晰而有說服力。他們會(huì)把蘊(yùn)含在數(shù)據(jù)中的規(guī)律建議給產(chǎn)品經(jīng)理和主管們,從而影響產(chǎn)品,流程,和決策。
由于這中行當(dāng)還處于初級(jí)階段,數(shù)據(jù)科學(xué)家常常會(huì)推廣他們自己開發(fā)的工具,甚至進(jìn)行學(xué)術(shù)研究。雅虎之前雇傭的一批數(shù)據(jù)科學(xué)家開發(fā)出了Hadoop。Facebook的數(shù)據(jù)團(tuán)隊(duì)開發(fā)了在Hadoop上編程的Hive語言。很多其他的數(shù)據(jù)科學(xué)家都豐富或者優(yōu)化了這套工具,尤其是數(shù)據(jù)驅(qū)動(dòng)的公司,比如谷歌,亞馬遜,微軟,沃爾瑪,eBay,LinkedIn, 和twitter。
什么樣的人有能力做這些呢?什么技能讓數(shù)據(jù)科學(xué)家成功呢?你可以把他們看成是數(shù)據(jù)駭客,分析師,溝通高手,值得信任的咨詢師,這些東西組合到一起極具威力,也極其少見。
數(shù)據(jù)科學(xué)家最基本最通用的技能是寫代碼。也許五年后不太會(huì)這樣了,那時(shí)很多人都會(huì)在他們的名片上印著“數(shù)據(jù)科學(xué)家”。一個(gè)更保值的技能是用所有相關(guān)方面都能聽得懂語言進(jìn)行溝通,另一個(gè)是用數(shù)據(jù)講故事的特殊能力,通過口頭表達(dá)或者視覺效果,或者兩者都有。
但我們覺得,數(shù)據(jù)科學(xué)家占支配地位的品質(zhì)應(yīng)該是強(qiáng)烈的好奇心,想要深入問題內(nèi)部的渴望,找到最核心的問題,提取成清晰的結(jié)論,并要經(jīng)得起檢驗(yàn)。比如,我們所知道的一位數(shù)據(jù)科學(xué)家,他研究的是欺詐問題,但他發(fā)現(xiàn)這個(gè)問題和DNA排序問題非常類似,在融合了兩個(gè)完全不相干的世界之后,他和他的團(tuán)隊(duì)找到了一種能大幅降低欺詐損失的解決方案。
現(xiàn)在你大概清楚了為什么這個(gè)新興的角色會(huì)被稱為 “科學(xué)家”。比如實(shí)驗(yàn)物理學(xué)家,同樣也需要設(shè)計(jì)儀器,收集數(shù)據(jù),反復(fù)試驗(yàn),并最終展示結(jié)果。因此,很多公司尋找能處理復(fù)雜數(shù)據(jù)的人才,可很多招到的不錯(cuò)的人才都是有物理或社會(huì)科學(xué)領(lǐng)域的學(xué)習(xí)和工作背景。有些最好的最有前途的數(shù)據(jù)科學(xué)家是研究復(fù)雜科學(xué)的博士生,比如生態(tài)學(xué)或者系統(tǒng)生物學(xué)。George是硅谷Intuit公司的數(shù)據(jù)科學(xué)團(tuán)隊(duì)的負(fù)責(zé)人,本身是天文學(xué)博士畢業(yè)。更普遍的是,當(dāng)今業(yè)界許多數(shù)據(jù)科學(xué)家畢業(yè)于計(jì)算機(jī)科學(xué),數(shù)學(xué),經(jīng)濟(jì)學(xué),和任何數(shù)據(jù)和計(jì)算密集型的領(lǐng)域。