招聘廣告的數量能一定程度上反應每一種軟件的流行程度,并從中預測出哪一種在將來會更加流行。以美國最大的招聘網站Indeed.com為統(tǒng)計平臺,通過對某一天數據科學職位的招聘數量進行統(tǒng)計分析,得出數據科學軟件的變化趨勢。
為了公平,本文采用了一種專門的方法,用來在數據科學職位范圍內統(tǒng)計每種軟件的招聘數量,文中所有的圖片也都是在這個前提下取得的,統(tǒng)計日期為2017年2月24日。
正文
各種軟件招聘量見下圖。其中最多的是SQL,將近18000,然后分別是Python和JAVA(13000左右),Hadoop(10000左右),R,C系列和SAS(這是R首次在在數據科學職位報告中超過SAS),Apache Spark,Tableau(5000左右,限數據科學職位),Apache Hive(3900左右),Scala,SAP,MATLAB,SPSS。其中Scala,SAP,MATLAB,SPSS均為2500左右。
招聘量小于250的軟件列在了下圖中,分別是:Alteryx(240),Microsoft(Azure Machine Learning and Microsoft Cognitive Toolkit,157),Julia,FORTRAN,Apache Flink(125),H2O(100)。以操作容易為賣點的SAS Enterprise Miner、RapidMiner和KNIME招聘量都是90左右,大概是因為各公司認為沒有必要聘請專家?SPSS模塊也是同樣類型的接口,但卻只有50個職位。開源的MXNet深度學習框架有34個職位,而Tensorflow是它的12倍,但是兩者都很年輕,有足夠大的潛力在未來快速發(fā)展。
下面我們先來看一下R是如何超過SAS的。從下圖可以看出,在2012年到2017年2月28日這個時間段,SAS的職位需求一直都很穩(wěn)定,而R則穩(wěn)定增長并最終在2016年早期超過了SAS。另外根據blog post所述,R于2015年就已經在學術出版物中超過SAS。
再來看一下Python和R。Python和R誰更流行的爭論是由來已久,但是從來都沒有多少數據支持。但是單從招聘職位上來看,Python于2013年就已經超過了R(如下圖)。當然我們要清楚,R只是單純用來進行數據分析,而Python在數據科學領域用途更廣泛。