需求高漲的數(shù)據(jù)科學(xué)家
從技術(shù)方面來看,硬盤價格下降,NoSQL數(shù)據(jù)庫等技術(shù)的出現(xiàn),使得和過去相比,大量數(shù)據(jù)能夠以廉價高效的方式進(jìn)行存儲。此外,像Hadoop這樣能夠在通用性服務(wù)器上工作的分布式處理技術(shù)的出現(xiàn),也使得對龐大的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)計處理的工作比以往更快速且更廉價。
然而,就算所擁有的工具再完美,它本身是不可能讓數(shù)據(jù)產(chǎn)生價值的。接下來我們還需要能夠運用這些工具的人才,他們能夠從堆積如山的大量數(shù)據(jù)中找到金礦,并將數(shù)據(jù)的價值以易懂的形式傳達(dá)給決策者,最終得以在業(yè)務(wù)上實現(xiàn)。具備這些技能的人才,就是在大數(shù)據(jù)浪潮如火如荼的美國目前正千金難求的“數(shù)據(jù)科學(xué)家”。
對數(shù)據(jù)科學(xué)家的關(guān)注,源于大家逐步認(rèn)識到,Google、Amazon、Facebook等公司成功的背后,存在著這樣的一批專業(yè)人才。這些Web公司對于大量數(shù)據(jù)不僅僅是進(jìn)行存儲而已,而是將其變?yōu)橛袃r值的金礦——例如,搜索結(jié)果、定向廣告、準(zhǔn)確的商品推薦、可能認(rèn)識的好友列表等。
數(shù)據(jù)科學(xué)(data science)是一個很久之前就存在的詞匯,但數(shù)據(jù)科學(xué)家(data scientist)卻是幾年前突然出現(xiàn)的一個新詞。關(guān)于這個詞的起源說法不一,其中在《數(shù)據(jù)之美》(Beautiful Data,Toby Segaran、Jeff Hammerbacher編著,O’Reilly出版 )一書中,對于Facebook的數(shù)據(jù)科學(xué)家,有如下敘述。
“在Facebook,我們發(fā)現(xiàn)傳統(tǒng)的頭銜如商業(yè)分析師、統(tǒng)計學(xué)家、工程師和研究科學(xué)家都不能確切地定義我們團(tuán)隊的角色。該角色的工作是變化多樣的:在任意給定的一天,團(tuán)隊的一個成員可以用Python實現(xiàn)一個多階段的處理管道流、設(shè)計假設(shè)檢驗、用工具R在數(shù)據(jù)樣本上執(zhí)行回歸測試、在Hadoop上為數(shù)據(jù)密集型產(chǎn)品或服務(wù)設(shè)計和實現(xiàn)算法,或者把我們分析的結(jié)果以清晰簡潔的方式展示給企業(yè)的其他成員。為了掌握完成這多方面任務(wù)需要的技術(shù),我們創(chuàng)造了‘數(shù)據(jù)科學(xué)家’這種角色。”
僅僅在幾年前,數(shù)據(jù)科學(xué)家還不是一個正式確定的職業(yè),然而一眨眼的工夫,這個職業(yè)就已經(jīng)被譽為“今后10年IT行業(yè)最重要的人才”了。
Google首席經(jīng)濟(jì)學(xué)家,加州大學(xué)伯克利分校教授哈爾?范里安(Hal Varian,1947~)先生,在2008年10月與麥肯錫總監(jiān)James Manyika先生的對話中,曾經(jīng)講過下面一段話(中文版節(jié)選自麥肯錫季刊官方中文稿) 。“我總是說,在未來10年里,最有意思的工作將是統(tǒng)計學(xué)家。人們都認(rèn)為我在開玩笑。但是,過去誰能想到電腦工程師會成為上世紀(jì)90年代最有趣的工作?在未來10年里,獲取數(shù)據(jù)——以便能理解它、處理它、從中提取價值、使其形象化、傳送它——的能力將成為一種極其重要的技能,不僅在專業(yè)層面上是這樣,而且在教育層面(包括對中小學(xué)生、高中生和大學(xué)生的教育)也是如此。由于如今我們已真正擁有實質(zhì)上免費的和無所不在的數(shù)據(jù),因此,與此互補的稀缺要素是理解這些數(shù)據(jù)并從中提取價值的能力。”
范里安教授在當(dāng)初的對話中使用的是“statisticians”(統(tǒng)計學(xué)家)一詞,雖然當(dāng)時他沒有使用“數(shù)據(jù)科學(xué)家”這個詞,但這里所指的,正是現(xiàn)在我們所討論的數(shù)據(jù)科學(xué)家。
數(shù)據(jù)科學(xué)家所需的技能
數(shù)據(jù)科學(xué)家這一職業(yè)并沒有固定的定義,但大體上指的是這樣的人才。
“所謂數(shù)據(jù)科學(xué)家,是指運用統(tǒng)計分析、機器學(xué)習(xí)、分布式處理等技術(shù),從大量數(shù)據(jù)中提取出對業(yè)務(wù)有意義的信息,以易懂的形式傳達(dá)給決策者,并創(chuàng)造出新的數(shù)據(jù)運用服務(wù)的人才。”數(shù)據(jù)科學(xué)家所需的技能如下。
(1) 計算機科學(xué)
一般來說,數(shù)據(jù)科學(xué)家大多要求具備編程、計算機科學(xué)相關(guān)的專業(yè)背景。簡單來說,就是對處理大數(shù)據(jù)所必需的Hadoop、Mahout等大規(guī)模并行處理技術(shù)與機器學(xué)習(xí)相關(guān)的技能。
(2) 數(shù)學(xué)、統(tǒng)計、數(shù)據(jù)挖掘等
除了數(shù)學(xué)、統(tǒng)計方面的素養(yǎng)之外,還需要具備使用SPSS、SAS等主流統(tǒng)計分析軟件的技能。其中,面向統(tǒng)計分析的開源編程語言及其運行環(huán)境“R”最近備受矚目。R的強項不僅在于其包含了豐富的統(tǒng)計分析庫,而且具備將結(jié)果進(jìn)行可視化的高品質(zhì)圖表生成功能,并可以通過簡單的命令來運行。此外,它還具備稱為CRAN(The Comprehensive R Archive Network)的包擴展機制,通過導(dǎo)入擴展包就可以使用標(biāo)準(zhǔn)狀態(tài)下所不支持的函數(shù)和數(shù)據(jù)集。