概述
在真實(shí)的數(shù)據(jù)科學(xué)世界里,我們會(huì)有兩個(gè)極端,一個(gè)是業(yè)務(wù),一個(gè)是工程。偏向業(yè)務(wù)的數(shù)據(jù)科學(xué)被稱(chēng)為數(shù)據(jù)分析(Data Analysis),也就是A型數(shù)據(jù)科學(xué)。偏向工程的數(shù)據(jù)科學(xué)被稱(chēng)為數(shù)據(jù)構(gòu)建(Data Building),也就是B型數(shù)據(jù)科學(xué)。
從工具上來(lái)看,按由業(yè)務(wù)到工程的順序,這個(gè)兩條是:EXCEL >> R >> Python >> Scala
在實(shí)際工作中,對(duì)于小數(shù)據(jù)集的簡(jiǎn)單分析來(lái)說(shuō),使用EXCEL絕對(duì)是最佳選擇。當(dāng)我們需要更多復(fù)雜的統(tǒng)計(jì)分析和數(shù)據(jù)處理時(shí),我們就需要轉(zhuǎn)移到 Python 和 R 上。在確定工程實(shí)施和大數(shù)據(jù)集操作時(shí),我們就需要依賴 Scala 的靜態(tài)類(lèi)型等工程方法構(gòu)建完整的數(shù)據(jù)分析系統(tǒng)。
Scala 和 Excel 是兩個(gè)極端,對(duì)于大多數(shù)創(chuàng)業(yè)公司而言,我們沒(méi)有足夠多的人手來(lái)實(shí)現(xiàn)專(zhuān)業(yè)化的分工,更多情況下,我們會(huì)在 Python 和 R 上花費(fèi)更多的時(shí)間同時(shí)完成數(shù)據(jù)分析(A型)和數(shù)據(jù)構(gòu)建(B型)的工作。而許多人也對(duì) Python 和 R 的交叉使用存在疑惑,所以本文將從實(shí)踐角度對(duì) Python 和 R 中做了一個(gè)詳細(xì)的比較。