熱門專業(yè)來了去,去了來。許多盲目追熱門專業(yè)的學(xué)生,充滿希望地投入一個熱門專業(yè),但四年后畢業(yè)時,正好趕上這個熱門泡沫破滅、人才過剩。十多年前IT泡沫破滅時,許多計算機人才就遭此命運。不過,那些本科在基礎(chǔ)學(xué)科中打下了堅實基礎(chǔ)的,往往能隨機應(yīng)變,則很短時間內(nèi)就掌握了熱門。當(dāng)熱門不再熱時,他們也能及時轉(zhuǎn)向。
最近的一個熱門專業(yè),是數(shù)據(jù)科學(xué),準(zhǔn)確地說,這個熱門叫什么名字,還很不確定。在傳統(tǒng)學(xué)科中,也許統(tǒng)計與之最為接近。
這門科學(xué)雖然還沒完全定型、定名,但已經(jīng)在現(xiàn)實中運用的風(fēng)風(fēng)火火。不久前在報紙上讀到一篇報道:一位父親在郵箱里收到某名店寄給女兒的嬰兒用品廣告,里面的賀卡寫得明明白白:“恭迎您的孩子!”父親大怒:我女兒才上高中,怎么可能生孩子?!于是找那家店去評理。結(jié)果馬上發(fā)現(xiàn):女兒確實已經(jīng)懷孕。店里根據(jù)他女兒購物的信用卡記錄,琢磨出連她自己的父親都沒有察覺的事情。
這就是大數(shù)據(jù)的厲害:從購物、網(wǎng)上活動、到犯罪數(shù)據(jù)、交通流量、乃至各種經(jīng)濟信息,都在大數(shù)據(jù)的分析范圍之內(nèi)。不管是一國的政治、軍事決策,還是一個大公司的市場戰(zhàn)略,全鑲嵌在數(shù)據(jù)科學(xué)之中。我發(fā)現(xiàn),亞馬遜甚至對我這么一個閱讀范圍廣泛、興趣變幻不定的人也非常了解,經(jīng)常能夠準(zhǔn)確地推薦給我各種學(xué)科的書籍,而且往往是我正需要的。我在亞馬遜上購物的一舉一動,都進入了其數(shù)據(jù)分析模式,這個模式在不停的分析我的思想動態(tài)。
如此神奇的數(shù)據(jù)科學(xué)并非橫空出世。傳統(tǒng)的數(shù)學(xué)、統(tǒng)計學(xué),就與之十分接近。后來的計算機、信息處理等等,也都與之密切相關(guān)。經(jīng)濟學(xué)中早就大量運用統(tǒng)計和數(shù)據(jù)。即使在歷史學(xué)中,數(shù)據(jù)資料的運用也越來越廣泛。不過,數(shù)據(jù)科學(xué)又不能被上述任何一門學(xué)科所概括。用Charleston學(xué)院計算機系主任Christopher Starr的話說,“數(shù)據(jù)科學(xué)正在崛起為一個新學(xué)科,但絕不是多學(xué)科簡單的相加,而是一個完整的知識體系、職業(yè)操作和組織、以及一整套倫理責(zé)任?!睌?shù)據(jù)科學(xué)家不僅僅是用計算機等現(xiàn)代信息處理技術(shù)收集數(shù)據(jù),而且要建立數(shù)學(xué)模型對之分析,并從這種分析演繹出某種故事、圖像。上面的例子就很清楚。一個女高中生購物,刷卡付款后留下的是一堆數(shù)據(jù)。這些數(shù)據(jù)數(shù)量并不大,但經(jīng)過某種模型的自動分析,很快構(gòu)造出一個生活中真實的故事:她懷孕了,正在等著自己的小寶寶出世。如今,當(dāng)人們每天到店里刷卡、或在網(wǎng)上購物、閱讀時,幾百萬、幾千萬、乃至上億的故事就這樣通過干巴巴的數(shù)據(jù)有聲有色地被構(gòu)造出來,為企業(yè)、政府、大學(xué)、慈善機構(gòu)和各種其他組織提供了政策依據(jù)。但這一切,是否侵犯了個人隱私?公共領(lǐng)域和私人領(lǐng)域的界限如何劃分?這又涉及到法律、倫理、政治等等方面的一系列辯論。
也正是如此,統(tǒng)計學(xué)最近在美國校園里漸漸熱起來。另外,哥倫比亞、斯坦福、紐約大學(xué)、西北大學(xué)、喬治梅森大學(xué)、印第安納大學(xué)、加州大學(xué)爾灣分校等等,在最近幾年建立了十幾個有著不同名字的數(shù)據(jù)科學(xué)的學(xué)位或證書課程。這并不是一點小動靜。要知道,過去幾年美國被經(jīng)濟危機所困,各大學(xué)紛紛消減和凍結(jié)項目、課程、教職,連哈佛這樣的巨無霸都不能免俗。能夠逆流而上建設(shè)新的課程,必定是回應(yīng)強烈的市場信號。麥肯錫環(huán)球咨詢公司指出,要滿足美國對數(shù)據(jù)科學(xué)家的需求,大學(xué)必須把現(xiàn)有的人才培養(yǎng)量擴張60%。到2018年,這個領(lǐng)域?qū)⒊霈F(xiàn)50萬個左右的工作,數(shù)據(jù)科學(xué)家的短缺將達19萬人,另外還需要150萬個理解數(shù)據(jù)科學(xué)的管理和后勤人員。這也難怪,如今雖然經(jīng)濟不景氣,許多這個學(xué)科的畢業(yè)生起薪能達十萬美元以上。比如,北卡州立大學(xué)(North Carolina State University)本來名不見經(jīng)傳,在《美國新聞與世界報道》中的全美研究性大學(xué)排名中居于百名以外。但該校2007年建立了與數(shù)據(jù)科學(xué)相關(guān)的分析(Analytics)專業(yè)碩士課程。2012年84位畢業(yè)生全部找到工作,平均起薪接近9萬美元,有經(jīng)驗者則超過10萬美元以上。
數(shù)據(jù)科學(xué)家需要什么素質(zhì)?我們本能地想到那些應(yīng)用數(shù)學(xué)、統(tǒng)計學(xué)、計算機信息處理等方面的人才。這確實也八九不離十。不過僅此還不夠。在哥倫比亞講授數(shù)據(jù)科學(xué)入門的Rachel Schutt指出,數(shù)據(jù)科學(xué)家是計算機科學(xué)家、軟件工程師、統(tǒng)計學(xué)家的雜交 更多詳細(xì)信息,請您微信關(guān)注“計算網(wǎng)”公眾號: