網(wǎng)絡(luò)上從不缺乏對數(shù)據(jù)科學(xué)術(shù)語進(jìn)行比較和對比的文章。文筆各異的人寫出了各式各樣的文章,以此將他們的觀點(diǎn)傳達(dá)給任何愿意傾聽的人。這幾乎是勢不可擋的。
所以我也記錄一下,對于那些疑惑此文是否也是雷同的帖子。對,是這樣的。
為什么再來一帖?我是這樣想的,盡管可能有很多分散觀點(diǎn)在定義和比較這些關(guān)聯(lián)術(shù)語,但事實(shí)上是,這些術(shù)語中的大部分是流動變化的,并不完全約定俗成,坦率地說,與他人觀點(diǎn)一同暴露是測試和優(yōu)化自己的觀點(diǎn)的最好方法之一。
所以,雖然大家可能不會完全(甚至是極低限度地)同意我對這些術(shù)語的大部分看法,但仍然能從中獲得一些東西。數(shù)據(jù)科學(xué)中的一些核心概念需要被解釋,或者至少在我看來是重要的,我會盡力闡述他們?nèi)绾侮P(guān)聯(lián),以及答疑這些個體概念組合在一起時遇到的困惑。
在獨(dú)立地思考概念之前,有個不同觀點(diǎn)的例子,KDnuggets的Gregory Piatetsky-Shapiro的維恩圖,概述了我們將要討論的數(shù)據(jù)科學(xué)術(shù)語之間的關(guān)系。建議讀者將此維恩圖與目前Drew Conway的著名的數(shù)據(jù)科學(xué)維恩圖,以及我下面的討論和帖子底部的修改過程/關(guān)系圖進(jìn)行比較。我認(rèn)為,盡管存在差異,但這些概念具有一定的相似性。
現(xiàn)在我們將對上述維恩圖中圈選的6個核心概念進(jìn)行分析,并提供一些關(guān)于如何將它們?nèi)谌霐?shù)據(jù)科學(xué)的洞察。我們很快就會摒棄過去十年最熱門的一些術(shù)語。
大數(shù)據(jù)(Big Data)
有各種各樣的文章在定義大數(shù)據(jù),我不打算花太多時間在這個概念上。簡單地來說,大數(shù)據(jù)通常被定義為“超出常用軟件工具捕獲,管理和處理能力”的數(shù)據(jù)集。 大數(shù)據(jù)是一個移動目標(biāo); 這個定義既模糊又準(zhǔn)確,足以捕捉其主要特征。
至于其他的概念,我們將通過調(diào)查,很好的獲得搜索字詞的流行度和N-gram頻率模型的一些初步了解,以便將這個難點(diǎn)與熱點(diǎn)炒作分開。鑒于這兩個概念相對較新,從1980年至2008年,N-gram頻率模型作為一個“舊”的概念如上圖所示。
最近的Google趨勢顯示2個新詞上升,另外2個保持持續(xù)上升,以及最后一個逐漸下降但有明顯的下降。請注意,由于已經(jīng)對數(shù)據(jù)進(jìn)行了定量分析,‘大數(shù)據(jù)’未包含在上述圖形中。繼續(xù)閱讀,以便進(jìn)一步了解觀測結(jié)果。
機(jī)器學(xué)習(xí)(Machine learning)
據(jù)Tom Mitchell在關(guān)于這個主題的創(chuàng)作書中闡述,機(jī)器學(xué)習(xí)“關(guān)心的問題是如何構(gòu)建計算機(jī)程序使用經(jīng)驗(yàn)自動改進(jìn)”。機(jī)器學(xué)習(xí)本質(zhì)上是跨學(xué)科的,采用計算機(jī)科學(xué),統(tǒng)計學(xué)和人工智能等方面的技術(shù)。機(jī)器學(xué)習(xí)研究的主要工作是促進(jìn)經(jīng)驗(yàn)自動改進(jìn)的算法,可以應(yīng)用于各種不同領(lǐng)域。
我不認(rèn)為有人會懷疑機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的核心組成。我在下面給出數(shù)據(jù)科學(xué)的詳細(xì)描述,如果你認(rèn)為在一個非常高的水平上其目標(biāo)是從數(shù)據(jù)中獲取洞察力,其實(shí)機(jī)器學(xué)習(xí)是允許此過程自動化的。機(jī)器學(xué)習(xí)與古典統(tǒng)計學(xué)有很多共同點(diǎn),因?yàn)樗褂脴颖緛硗茢嗪透爬?。?shù)據(jù)統(tǒng)計更多地側(cè)重于描述性(盡管可以通過外推來預(yù)測),機(jī)器學(xué)習(xí)對描述性分析的關(guān)注很少,并且僅將其用作中間步驟以便能夠進(jìn)行更好預(yù)測。機(jī)器學(xué)習(xí)通常被認(rèn)為是模式識別的同義詞;真的不會從我這里發(fā)生太多的分歧,我相信,‘模式識別’這個術(shù)語意味著實(shí)際上是一個比機(jī)器學(xué)習(xí)更不復(fù)雜和更簡單化的過程,這就是為什么我傾向于回避它。
機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘有著復(fù)雜的關(guān)系。
數(shù)據(jù)挖掘(Data Mining)
Fayyad,Piatetsky-Shapiro&Smyth將數(shù)據(jù)挖掘定義為“從數(shù)據(jù)中提取模式的特定算法的應(yīng)用”。這表明,在數(shù)據(jù)挖掘中,重點(diǎn)在于算法的應(yīng)用,而不是算法本身。我們可以定義機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘之間的關(guān)系如下:數(shù)據(jù)挖掘是一個過程,在此過程中機(jī)器學(xué)習(xí)算法被用作提取數(shù)據(jù)集中的潛在有價值模式的工具。
‘數(shù)據(jù)挖掘’作為機(jī)器學(xué)習(xí)的姊妹術(shù)語,也是數(shù)據(jù)科學(xué)的關(guān)鍵。在數(shù)據(jù)科學(xué)術(shù)語爆發(fā)泛濫之前,事實(shí)上,數(shù)據(jù)挖掘’在Google搜索術(shù)語中取得了更大的成功??纯碐oogle趨勢比上圖顯示的還要早5年,數(shù)據(jù)挖掘’曾經(jīng)更受歡迎。然而,今天,數(shù)據(jù)挖掘’似乎被劃分為機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)之間的概念。若有人同意上述解釋,數(shù)據(jù)挖掘是一個過程,那么將數(shù)據(jù)科學(xué)視為數(shù)據(jù)挖掘的超集,那么后續(xù)的術(shù)語都是有意義的。