數(shù)據(jù)科學(xué)家正快速崛起成為21世紀(jì)的科技界巨星,這多少要?dú)w功精準(zhǔn)預(yù)測美國大選的統(tǒng)計(jì)學(xué)家席佛(Nate Silver),以及以數(shù)據(jù)分析掀起棒球戰(zhàn)術(shù)革命的德波戴斯塔(Paul DePodesta) ,他們讓埋首數(shù)字的數(shù)學(xué)專家從書呆子進(jìn)化成明星,但多年來,各界都在爭論數(shù)據(jù)科學(xué)家的工作與統(tǒng)計(jì)員有何差異。
隨著資料科學(xué)領(lǐng)域不斷成長,許多公司企業(yè)更迫切希望延攬自己的數(shù)據(jù)科學(xué)家。但,許多人可能意料不到的是這些數(shù)學(xué)書呆子并沒有你想得這么「學(xué)富五車」。
在數(shù)據(jù)領(lǐng)域中許多佼佼者并沒有許多人預(yù)期的數(shù)學(xué)或科學(xué)專業(yè)訓(xùn)練,席佛和德波戴斯塔都只是經(jīng)濟(jì)學(xué)學(xué)士,兩人都沒有博士學(xué)位;Facebook前數(shù)據(jù)科學(xué)家和資料系統(tǒng)處理公司Cloudera聯(lián)合創(chuàng)辦人哈梅巴赫(Jeff Hammerbacher)也僅是數(shù)學(xué)學(xué)士。
巨量資料科學(xué)平臺商Kaggle執(zhí)行長高德布魯(Anthony Goldbloom)說:「其實(shí),我認(rèn)為資訊科學(xué)博士碰上數(shù)據(jù)時(shí)常常會花太多時(shí)間思考用哪種演算法,反而忽略一般性問題,像是哪套變數(shù)(或特征)比較重要等等?!?/p>
數(shù)據(jù)科學(xué)家康迪多(John Candido)同意:「數(shù)學(xué)知識很重要,但相同重要的是要了解這項(xiàng)研究。了解使用某種數(shù)學(xué)的原因比了解數(shù)學(xué)本身更重要?!?/p>
康迪多是心理學(xué)碩士,沒有數(shù)學(xué)或物理學(xué)博士學(xué)位。但在資料科學(xué)領(lǐng)域發(fā)展得相當(dāng)好,現(xiàn)在在前Google資訊長梅瑞爾(Douglas Merrill)創(chuàng)辦的公司ZestFinance負(fù)責(zé)資料科學(xué)工作。
康迪多表示,雖然研究所課程為他的統(tǒng)計(jì)學(xué)打下好基礎(chǔ),但仍比不上在資料科學(xué)領(lǐng)域的實(shí)作經(jīng)驗(yàn)。他推薦參加Kaggle主辦的資料探勘大賽。
康迪多說:「我不想貶低博士學(xué)歷的價(jià)值,但不要覺得這是絕對必要條件?!?/p>
梅瑞爾表示同意:「我們聘請的數(shù)據(jù)科學(xué)家來自各行各業(yè),有多種不同的專業(yè)背景,而且我們團(tuán)隊(duì)也有人沒有研究所學(xué)歷… 因?yàn)檎f到資料科學(xué)數(shù)學(xué)只占了問題的一半,它也是門藝術(shù),原因就在這些人才要具備直覺,要能以創(chuàng)意的角度看問題?!?/p>
有些軟體商利用數(shù)據(jù)科學(xué)家稀有和價(jià)格昂貴的觀念,向企業(yè)推銷可以節(jié)省資料挖掘人力的商業(yè)情報(bào)應(yīng)用程式。資料分析師和商業(yè)情報(bào)專家通常會知道要分析哪些資料,但數(shù)據(jù)科學(xué)家的作法更具實(shí)驗(yàn)性,他們必須找出資料組合,想出可以從中挖掘出哪些資訊,以及如何挖掘。
市面上的軟體可以簡化數(shù)據(jù)處理過程,但資料科學(xué)并不是只有消化數(shù)字而已。
康迪多說,不管數(shù)據(jù)科學(xué)家的學(xué)歷為何,他們永遠(yuǎn)不斷在學(xué)習(xí)。他說:「不斷掌握該領(lǐng)域最新的知識至關(guān)重要,否則很快就會落后?!埂竻⒓淤Y料探勘比賽是與時(shí)俱進(jìn)的途徑之一,隨時(shí)注意比你強(qiáng)的對手?!?/p>