顯然,大數(shù)據(jù)的模型方法與這里列出的已有科學模型方法均不相 同,是一種新型的模型方法,更多地體現(xiàn)為一種經驗模型。
4.2 大數(shù)據(jù)模型與統(tǒng)計建模比較,也有本質的不同
數(shù)據(jù)挖掘作為一個多學科交叉的領域,涉及到數(shù)據(jù)庫、統(tǒng)計學、機器學習等領域;從模型方法的角度來看,其中最為相近的是統(tǒng)計學。盡管數(shù)據(jù)挖掘涉及一定的統(tǒng)計基礎,但數(shù)據(jù)挖掘與統(tǒng)計建模還是有本質的區(qū)別。
首先,科學研究中的地位不同。統(tǒng)計建模經常是經驗研究和理論研究的配角和檢驗者,而在大數(shù)據(jù)的科學研究中,數(shù)據(jù)模型就是主角,模型承擔了科學理論的角色。
其次,數(shù)據(jù)類型不同。統(tǒng)計建模的數(shù)據(jù)通常是精心設計的實驗數(shù)據(jù),具有較高的質量;而大數(shù)據(jù)中則是海量數(shù)據(jù),往往類型雜多,質量較低。
再次,確立模型的過程不同。統(tǒng)計建模的模型是根據(jù)研究問題而確定的,目標變量預先已經確定好;大數(shù)據(jù)中的模型則是通過海量數(shù)據(jù)確定的,且部分情況下目標變量并不明確。
最后,建模驅動不同。統(tǒng)計建模是驗證驅動,強調的是先有設計再通過數(shù)據(jù)驗證設計模型的合理性;而大數(shù)據(jù)模型是數(shù)據(jù)驅動,強調的是建模過程以及模型的可更新性。
由此可見,盡管大數(shù)據(jù)與統(tǒng)計建模均是從數(shù)據(jù)中獲取模型,但兩者具有很大的區(qū)別,大數(shù)據(jù)帶來的是一種新的模型方法,大數(shù)據(jù)中的模型是數(shù)據(jù)驅動的經驗模型。
5. 大數(shù)據(jù)與哲學聯(lián)系——數(shù)據(jù)挖掘的過程就是認識論的過程
近現(xiàn)代科學最重要的特征是尋求事物的因果性。無論是唯理論還是經驗論,事實上都在尋找事物之間的因果關系,區(qū)別只在尋求因果關系的 方式不同。大數(shù)據(jù)最重要的特征是重視現(xiàn)象間的相關關系,并試圖通過變量之間的依隨變化找尋它們的相關性,從而不再一開始就把關注點放在內在的因果性上,這是對因果性的真正超越。科學知識從何而來?傳統(tǒng)哲學認為要么來源于經驗觀察,要么來源于所謂的正確理論,大數(shù)據(jù)則通過數(shù)據(jù)挖掘“讓數(shù)據(jù)發(fā)聲”,提出了全新 的“科學始于數(shù)據(jù)”這一知識生產新模式。
由此,數(shù)據(jù)成了科學認識的基礎,而云計算等數(shù)據(jù)挖掘手段將傳統(tǒng)的經驗歸納法發(fā)展為“大數(shù)據(jù)歸納法”,為科學發(fā)現(xiàn)提 供了認知新途徑。大數(shù)據(jù)通過海量數(shù)據(jù)來發(fā)現(xiàn)事物之間的相關關系,通過數(shù)據(jù)挖掘從海量數(shù)據(jù)中尋找蘊藏其中的數(shù)據(jù)規(guī)律,并利用數(shù)據(jù)之間的相關關系來解釋過去、 預測未來,從而用新的數(shù)據(jù)規(guī)律補充傳統(tǒng)的因果規(guī)律。大數(shù)據(jù)給傳統(tǒng)的科學認識論提出了新問題,也帶來了新挑戰(zhàn)。
一方面,大數(shù)據(jù)用相關性補充了傳統(tǒng)認識論對因 果性的偏執(zhí),用數(shù)據(jù)挖掘補充了科學知識的生產手段,用數(shù)據(jù)規(guī)律補充了單一的因果規(guī)律,實現(xiàn)了唯理論和經驗論的數(shù)據(jù)化統(tǒng)一,形成了全新的大數(shù)據(jù)認識論;
另一 方面,由相關性構成的數(shù)據(jù)關系能否上升為必然規(guī)律,又該如何去檢驗,仍需要研究者作出進一步思考。
大風大浪中,有時也需要清清心,喝杯茶。