數(shù)據(jù)科學(xué)家這個職位現(xiàn)在已經(jīng)有了比較完善的定義,但在此之前,就已經(jīng)出現(xiàn)了另一個職位,數(shù)據(jù)工程師,接下來我們將探討這兩個職位間的區(qū)別與聯(lián)系,并分析企業(yè)在何種情況下需要其中一個,或兩個都需要。
盡管對于分析與數(shù)據(jù)科學(xué)家來說,還有許多待解決的問題,但這并不影響一個新興職位的出現(xiàn):數(shù)據(jù)工程師,并且數(shù)據(jù)工程的數(shù)量正在逐年上升。
數(shù)據(jù)工程師職位目前已廣泛出現(xiàn)在各類招聘上,雖然有時容易和數(shù)據(jù)科學(xué)家的職位相混淆,但其似乎已經(jīng)成為企業(yè)在大數(shù)據(jù)領(lǐng)域的核心職位之一。
IT求職網(wǎng)站Dice.com的總裁Bob Melk表示,從名字上來看,這兩個角色很容易混淆,但數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師實際上是有很大區(qū)別的
“數(shù)據(jù)科學(xué)家所具備的技能更專注于數(shù)學(xué)方法和數(shù)據(jù)分析,而數(shù)據(jù)工程的重點是數(shù)據(jù)挖掘,云計算和編程技能,”他說。
數(shù)據(jù)工程師致力于開源大數(shù)據(jù)的管理。一位數(shù)據(jù)庫行業(yè)資深觀察者說道,在他最近的一次硅谷之旅中,他發(fā)現(xiàn),在這個作為大數(shù)據(jù)溫床的地方,數(shù)據(jù)工程師這個術(shù)語已經(jīng)被廣泛使用。
他在最近的博客中指出,數(shù)據(jù)工程師這個職位的產(chǎn)生,有部分原因是由于人們對數(shù)據(jù)科學(xué)家的能力預(yù)期過高。
而現(xiàn)實是,數(shù)據(jù)科學(xué)家的工作描述所涉及的技能太過于寬泛。搭建數(shù)據(jù)處理集群、程序編碼,學(xué)習(xí)最新的開源數(shù)據(jù)API。這些都被歸結(jié)為數(shù)據(jù)科學(xué)家必須掌握的技能之一,但事實上,它們應(yīng)該是數(shù)據(jù)工程師的職責(zé)范圍。
Dice's Melk認(rèn)為Apache Hadoop,分布式計算和NoSQL數(shù)據(jù)庫,是數(shù)據(jù)工程師必須掌握的幾個重要技能。對于數(shù)據(jù)科學(xué)家而言,其掌握的技能應(yīng)包括數(shù)據(jù)統(tǒng)計,統(tǒng)計建模,預(yù)測建模和機器學(xué)習(xí)等。
數(shù)據(jù)工程師的隊伍正在逐漸壯大。Dice.上半年發(fā)布了891個數(shù)據(jù)工程師職位招聘信息。也許僅靠這個數(shù)字并不足以說明什么,但令人印象深刻的是,這個數(shù)字比2015年4的數(shù)據(jù)增長了88%之多,足以證明市場對數(shù)據(jù)工程師的迫切需求。
從數(shù)據(jù)科學(xué)談起
咨詢公司Athena IT Solutions創(chuàng)始人Rick Sherman表示,一些早期的數(shù)據(jù)科學(xué)家們往往需要大包大攬,他們不得不建立親自去構(gòu)建Hadoop集群,同時創(chuàng)建預(yù)測分析模型?,F(xiàn)在,在一些企業(yè)中,數(shù)據(jù)工程師開始為數(shù)據(jù)科學(xué)家分擔(dān)這一部分任務(wù)。
Sherman和其他人的看法一樣,都認(rèn)為數(shù)據(jù)工程師實際上能夠解放數(shù)據(jù)科學(xué)家,讓他們真正能做他們的本職工作,高級數(shù)據(jù)統(tǒng)計和試圖發(fā)現(xiàn)新商業(yè)機會的數(shù)據(jù)分析,這些才是他們該做的。
“數(shù)據(jù)科學(xué)部門的規(guī)模越大,數(shù)據(jù)工程師從數(shù)據(jù)科學(xué)家那里承擔(dān)過來的工作就會越多,”他說。這是非常重要的,他補充道,因為公司在數(shù)據(jù)科學(xué)領(lǐng)域投入了大筆資金。
數(shù)據(jù)工程師所需的技能
從一些招聘信息的工作描述可以看出,“數(shù)據(jù)工程師”主要覆蓋下面的這些技能:
一家處于行業(yè)領(lǐng)先地位的金融數(shù)據(jù)服務(wù)公司正在尋找一名高級數(shù)據(jù)工程師,要求其在云基礎(chǔ)設(shè)施,Scala,Apache Spark和Python等領(lǐng)域有著豐富的經(jīng)驗。
在線旅游服務(wù)公司正在尋找一位數(shù)據(jù)工程師,要求其具有與領(lǐng)域?qū)<覅f(xié)調(diào)工作的能力,特別是與機器學(xué)習(xí)團隊高效合作的能力。
一家國有銀行正在尋找數(shù)據(jù)工程師,要求他們可以編寫和運行各種開源框架。他們還要求數(shù)據(jù)工程師精通Akka,Cassandra, Accumulo,HBase, Hadoop/HDFS, Avro,MongoDB and Mesos,也許還包括一些尚未存在的數(shù)據(jù)處理框架。
但總的來說,數(shù)據(jù)工程師并沒有得到與數(shù)據(jù)科學(xué)家同等的薪資待遇。例如,據(jù)招聘網(wǎng)站Glassdoo統(tǒng)計,全國數(shù)據(jù)工程師的平均工資大概為95526美元,而全國數(shù)據(jù)科學(xué)家的平均薪水是113436美元。
當(dāng)然,也有例外情況,有的數(shù)據(jù)工程師薪酬可能會突破100000美元。盡管Dice 宣稱并沒有足夠的樣本數(shù)據(jù)來評估數(shù)據(jù)工程師薪水,但Melk指出了掌握類似技能人員的年薪水平,比如Cassandra(147811美元),Pig(132850美元)和MapReduce編程(131563美元)。這表明數(shù)據(jù)工程師的薪資可以很容易超過100000美元這個水平。
交付數(shù)據(jù)
數(shù)據(jù)工程師的任務(wù)是交付數(shù)據(jù),他們的角色任務(wù)是準(zhǔn)備或定義數(shù)據(jù)結(jié)構(gòu)。在某種程度上,數(shù)據(jù)工程師應(yīng)承擔(dān)傳統(tǒng)的提取、轉(zhuǎn)換和加載以及數(shù)據(jù)集成工作,這些工作主要是新大數(shù)據(jù)處理框架中的數(shù)據(jù)加工過程。
大型國防合約商Raytheon Co公司構(gòu)建了一個Hadoop 數(shù)據(jù)湖泊,這需要有人來負(fù)責(zé),數(shù)據(jù)工程師比數(shù)據(jù)科學(xué)家更適合這個任務(wù),Kathy Sonderer,該公司首席數(shù)據(jù)科學(xué)專家在今年San Diego舉辦的Enterprise Data World大會上說道。