中國IDC圈6月7日報道,譯著《大數(shù)據(jù)時代》( 英國 ViktorMayer-Schǒnberger,Kenneth Cukier 著) 和《駕馭大數(shù)據(jù)》( 美國 Bill Franks 著) ,以及我國學者涂子沛、郭曉科的《大數(shù)據(jù)》等幾本書引起了廣泛的關(guān)注,其他各種媒體關(guān)于大數(shù)據(jù)的討論也層出不窮,大數(shù)據(jù)已成為流行語。有人認為,大數(shù)據(jù)是一場新的革命,將橫掃一切領(lǐng)域,重構(gòu)世界。不少國家已將大數(shù)據(jù)作為國家發(fā)展戰(zhàn)略,而商業(yè)領(lǐng)域更是將其視為下一個投資的寶庫。毫無疑問,大數(shù)據(jù)時代已經(jīng)來臨,它正在悄悄地改變著人們的行為與思維,難以阻擋,無法抗拒。在計算機科學、電子商務(wù)等領(lǐng)域已率先在大數(shù)據(jù)技術(shù)開發(fā)與應(yīng)用方面做出不俗成就的時候,以數(shù)據(jù)為研究對象的 統(tǒng)計學 該如何應(yīng)對? 無動于衷還是盲目追從? 正確的態(tài)度應(yīng)該是理性對待、積極跟進、改變思維、謀求發(fā)展。
一、對大數(shù)據(jù)的初步認識
到底什么是大數(shù)據(jù),不同的學科領(lǐng)域、不同行業(yè)的從業(yè)人員肯定會有不同的理解。與傳統(tǒng)意義上的數(shù)據(jù)相比,大數(shù)據(jù)的“大”與“數(shù)據(jù)”都有了新的含義,絕不僅僅是體量的問題,更重要的是數(shù)據(jù)的內(nèi)涵問題?;蛟S,“大”與“數(shù)據(jù)”根本就不能分開,只有把“大數(shù)據(jù)”當作一個整體概念來理解才有意義。那么從統(tǒng)計學的角度,我們該如何來理解大數(shù)據(jù)?筆者認為大數(shù)據(jù)不是基于人工設(shè)計、借助傳統(tǒng)方法而獲得的有限、固定、不連續(xù)、不可擴充的結(jié)構(gòu)型數(shù)據(jù),而是基于現(xiàn)代信息技術(shù)與工具可以自動記錄、儲存和連續(xù)擴充的、大大超出傳統(tǒng)統(tǒng)計記錄與儲存能力的一切類型的數(shù)據(jù)。有人用4V( Volume、Variety、Velocity和Value) 來形容大數(shù)據(jù)的特征,最根本之處就是數(shù)字化基礎(chǔ)上的數(shù)據(jù)化。通俗地說,大數(shù)據(jù)就是一切可記錄信號的集合。
如果說,傳統(tǒng)統(tǒng)計研究的數(shù)據(jù)是有意收集的結(jié)構(gòu)化的樣本數(shù)據(jù),那么現(xiàn)在我們面對的數(shù)據(jù)則是一切可以記錄和存儲、源源不斷擴充、超大容量的各種類型的數(shù)據(jù)。樣本數(shù)據(jù)與大數(shù)據(jù)的這種區(qū)別,具有什么樣的統(tǒng)計學意義? 我們知道,樣本數(shù)據(jù)是按照特定研究目的、依據(jù)抽樣方案獲得的格式化的數(shù)據(jù),不僅數(shù)據(jù)量有限,而且如果過程偏離方案,數(shù)據(jù)就不能滿足要求。基于樣本數(shù)據(jù)所進行的分析,其空間十分有限———通常無法滿足多層次、多角度的需要,若遇到抽樣方案事先未曾考慮到的問題,數(shù)據(jù)的不可擴充性缺點就暴露無疑。而大數(shù)據(jù)是一切可以通過現(xiàn)代信息技術(shù)記錄和量化的數(shù)據(jù),不僅所蘊含的信息量巨大,而且不受各種框框的限制———任何種類的數(shù)據(jù)都來者不拒、也無法抵拒。不難發(fā)現(xiàn),大數(shù)據(jù)相比于樣本數(shù)據(jù)的最大優(yōu)點是,具有巨大的數(shù)據(jù)選擇空間,可以進行多維、多角度的數(shù)據(jù)分析。更為重要的是,由于大數(shù)據(jù)的大體量與多樣性,樣本不足以呈現(xiàn)的某些規(guī)律,大數(shù)據(jù)可以體現(xiàn); 樣本不足以捕捉的某些弱小信息,大數(shù)據(jù)可以覆蓋; 樣本中被認為異常的值,大數(shù)據(jù)得以認可。這將極大地提高我們認識現(xiàn)象的能力,避免丟失很多重要的信息,避免失去很多決策選擇的機會。
這里,我們自然就想到了大量觀察與大數(shù)據(jù)這兩個概念中的“大”的區(qū)別。對于傳統(tǒng)的統(tǒng)計研究方法而言,大量觀察法是基礎(chǔ),是收集數(shù)據(jù)的基本理論依據(jù),其主要思想是要對足夠量的個體進行調(diào)查觀察,以確保有足夠的微觀基礎(chǔ)來消除或削弱個體差異對整體特征的影響,足以歸納出關(guān)于總體的數(shù)量規(guī)律。所以,這里的“大”是足夠的意思。大量觀察法的極端情況就是普查,但限于各種因素不能經(jīng)常進行,所以一般情況下只能進行抽樣調(diào)查,這就需要精確計算最小的樣本量?;诖罅坑^察法獲得的樣本數(shù)據(jù)才符合大數(shù)法則或大數(shù)定律,才能用以推斷總體。而大數(shù)據(jù)則指不限量的數(shù)據(jù),是基于現(xiàn)代信息技術(shù)的一切可以記錄的全體數(shù)據(jù),其特征之一就是盡量多地包含數(shù)據(jù),它與樣本容量無關(guān),只與信息來源的數(shù)量與儲存容量有關(guān)。因此,這里的“大”是全體的意思。
可見,統(tǒng)計學的研究對象沒有變,變的是數(shù)據(jù)的來源、體量、類型、速度與量化的方式。這種變化對統(tǒng)計研究帶來了什么樣的挑戰(zhàn)? 《大數(shù)據(jù)時代》提出了三個最顯著的變化: 一是樣本等于總體,二是不再追求精確性,三是相關(guān)分析比因果分析更重要。這些觀點具有很強的震撼力,迫使我們對現(xiàn)有的統(tǒng)計研究思維進行反思。盡管這些觀點值得進一步商榷,但至少告訴我們這樣一個道理: 統(tǒng)計研究對象的基礎(chǔ)變了,統(tǒng)計思維也要跟著變化,否則統(tǒng)計研究的對象只是全部數(shù)據(jù)的 5%,而且越來越少,那又怎么能說統(tǒng)計學是一門關(guān)于數(shù)據(jù)的科學呢? 又怎么去完善和發(fā)展開展數(shù)據(jù)分析研究的統(tǒng)計方法論呢?