中國(guó)IDC圈2月24日?qǐng)?bào)道:這是一個(gè)好消息,如果你希望在2016年找一份數(shù)據(jù)科學(xué)的工作—在該領(lǐng)域職位空缺的數(shù)量正在不斷增加,企業(yè)希望利用大數(shù)據(jù)來(lái)獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。但事實(shí)上,找一份夢(mèng)寐以求的數(shù)據(jù)科學(xué)工作就意味著你要具備一些技能的組合,你可能會(huì)驚訝學(xué)習(xí)哪些技能是雇主所最需要的。
最近,人們?cè)贑rowdFlower上針對(duì)Linkedin的3490個(gè)數(shù)據(jù)科學(xué)職位做了分析,并對(duì)最常出現(xiàn)的21個(gè)技能進(jìn)行了排序。有些結(jié)果并不那么令人驚訝—SQL排在最前,而其它的結(jié)果可能是數(shù)據(jù)科學(xué)領(lǐng)域不斷發(fā)展的領(lǐng)先指標(biāo)。
如上所述,SQL是最常見(jiàn)的技能,在Linkedin發(fā)布的所有數(shù)據(jù)科學(xué)工作中占比達(dá)到了57%。Hadoop排在第二,占比49%。這并不出乎CrowdFlower公司CEO和創(chuàng)始人Lukas Biewald的意料。CrowdFlower是美國(guó)硅谷一家從事眾包數(shù)據(jù)處理的公司。
“SQL和Hadoop排在前兩位并沒(méi)什么驚訝的,因?yàn)樗鼈儽旧砭褪谴鎯?chǔ)數(shù)據(jù)的技術(shù)”Biewald告訴Datanami(本文轉(zhuǎn)譯自該網(wǎng)站)。“每個(gè)數(shù)據(jù)科學(xué)家必須知道如何獲取數(shù)據(jù)。如果你不知如何獲取數(shù)據(jù),那你什么都做不了。”
在所有數(shù)據(jù)科學(xué)的招聘信息中,python是排在第三名的技能。在CrowdFlower去年關(guān)于數(shù)據(jù)科學(xué)家哪些技能是最重要的調(diào)查中,python排在R的后面。但在本次招聘信息的調(diào)查中(這無(wú)疑是更具有前瞻性的范圍),python作為數(shù)據(jù)科學(xué)的一項(xiàng)關(guān)鍵性技能占比達(dá)到了39%。相比之下,R是32%。
相比R來(lái)說(shuō),為什么現(xiàn)在越來(lái)越多的雇主正在尋找具備python技能的數(shù)據(jù)科學(xué)家?Biewald提出了自己的看法:“python的工具集越來(lái)越好。已經(jīng)有很多基于python的統(tǒng)計(jì)工具”。“還有一個(gè)認(rèn)識(shí)是數(shù)據(jù)科學(xué)不僅僅是統(tǒng)計(jì)學(xué)”。
設(shè)想一下,數(shù)據(jù)科學(xué)家80%的時(shí)間花費(fèi)在數(shù)據(jù)清理和數(shù)據(jù)準(zhǔn)備上,而只有20%的時(shí)間是用來(lái)做分析。這或許可以解釋python突然出現(xiàn)的原因。
“我認(rèn)為Python是做數(shù)據(jù)清理的語(yǔ)言,而R是做分析的”,Biewald說(shuō)到。在創(chuàng)辦CrowdFlower之前,他負(fù)責(zé)領(lǐng)導(dǎo)Yahoo的搜索相關(guān)團(tuán)隊(duì)。“由于數(shù)據(jù)科學(xué)更多的是做數(shù)據(jù)清洗和準(zhǔn)備,python正變得越來(lái)越重要。它無(wú)疑是將數(shù)據(jù)整理成適合做分析的數(shù)據(jù)格式最好的語(yǔ)言”。
事實(shí)上,Java排在第四位讓人有點(diǎn)摸不著頭腦。因?yàn)镴ava本身不是數(shù)據(jù)科學(xué)所要求的掌握一門語(yǔ)言,當(dāng)你在java中寫Hadoop的時(shí)候,它的高配就顯得有道理了。其它跟Hadoop相關(guān)的工具都排在前10,包括Hive(31%),MapReduce(22%)和Pig(16%)。
對(duì)于這份CrowdFlower從Linkedin編輯過(guò)來(lái)的職位列表,多少有些遺漏。Apache Spark,在上面給出的數(shù)據(jù)科學(xué)技能要求中沒(méi)有出現(xiàn)過(guò)。Scala也沒(méi)有出現(xiàn)過(guò),它是在Spark框架內(nèi)處理數(shù)據(jù)的主要途徑之一。
這可能是因?yàn)镾park還比較前沿,大家對(duì)它知之甚少。“現(xiàn)在周圍對(duì)它有很多炒作,但可能還是太早了”Biewald說(shuō)到。“在CrowdFlower,我們已經(jīng)開(kāi)始使用它了。我認(rèn)為這門技術(shù)很棒,但在企業(yè)真正使用它的時(shí)候會(huì)有些滯后”。
Spark和Scala可能是數(shù)據(jù)科學(xué)的未來(lái)(它們?cè)贏lphabet[NASDAQ:GOOGL]公司中得到大力支持,硅谷的許多高科技公司也在廣泛的使用它們)。但不是每個(gè)數(shù)據(jù)科學(xué)項(xiàng)目或團(tuán)隊(duì)都需要走在技術(shù)的最前沿才能實(shí)現(xiàn)他們的大數(shù)據(jù)成果。“令人驚訝的是現(xiàn)在很多人都在尋找數(shù)據(jù)科學(xué)家,但是我認(rèn)為他們中的很多人是不想走在最前沿的”Biewald說(shuō)到。
這份CrowdFlower列表中包含了許多知名的數(shù)據(jù)分析工具,包括SAS(占比16%),SPSS(10%),Matlab(10%)和Stata(占比3%)。Biewald認(rèn)為這些工具仍是有價(jià)值的并且在未來(lái)一段時(shí)間內(nèi)還會(huì)繼續(xù)使用。但是他希望它們的市場(chǎng)份額逐漸被那些專門為大數(shù)據(jù)設(shè)計(jì)的新工具所奪走。
“數(shù)據(jù)科學(xué)的角色大于統(tǒng)計(jì)學(xué)家”他說(shuō)。“在我們的腦海里,這些舊的語(yǔ)言更多的是建立在統(tǒng)計(jì)學(xué)家的基礎(chǔ)上,它們只是對(duì)少量的數(shù)據(jù)進(jìn)行分析。而排名在前的Hadoop,python和Java則可以運(yùn)行TB級(jí)的數(shù)據(jù)。你可以用SAS,SPSS,Matlab來(lái)做大數(shù)據(jù)分析,但這不是它們?cè)O(shè)計(jì)的目的”。
不是每個(gè)人都同意“數(shù)據(jù)科學(xué)”或“數(shù)據(jù)科學(xué)家”應(yīng)該做什么以及應(yīng)該掌握什么樣技能的定義。事實(shí)上,一些人反對(duì)使用術(shù)語(yǔ)“科學(xué)”,而寧愿用諸如“應(yīng)用統(tǒng)計(jì)”的短語(yǔ)。(想起了哈佛商業(yè)評(píng)論稱應(yīng)用統(tǒng)計(jì)學(xué)家是21世紀(jì)最性感的職業(yè))
但在Biewald和其他人眼中,處理數(shù)據(jù)的能力和統(tǒng)計(jì)分析的能力同等重要。這就是他對(duì)數(shù)據(jù)科學(xué)家進(jìn)一步給出的定義。