引言:
大數(shù)據(jù)的概念一經(jīng)提出,立即獲得業(yè)界追捧,一時間各個高科技論壇言必稱大數(shù)據(jù)。邁克—舍恩伯格在其《大數(shù)據(jù)時代》[Big Data: A Revolution That Will Transform
How We Live, Work and Think]一書中提出的三個重大思維轉(zhuǎn)變更是被追隨者奉為圭臬,即:“首先,要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。其次,我們樂于接受數(shù)據(jù)的紛繁復(fù)雜,而不再追求精確性。最后,我們的思想發(fā)生了轉(zhuǎn)變,不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。”
大數(shù)據(jù)的踐行者們不僅在思維上進行了轉(zhuǎn)變,在數(shù)據(jù)處理上同樣采取“大數(shù)據(jù)”的方法:分析全體而不是樣本,不追求精確性,“知其然,不知其所以然”(注:第三句是筆者歸納,原文意思是只要知道“是什么”,不必知道“為什么”,或只問相關(guān)性,不問因果關(guān)系)。同時宣布傳統(tǒng)的抽樣方法已經(jīng)過時,不能適應(yīng)當(dāng)今互聯(lián)網(wǎng)信息社會的要求。
上述斷言過于武斷。如果斷言的目的是為了強調(diào)面對信息爆炸,人們必須不斷地尋找新的方法,包括“大數(shù)據(jù)方法”,來分析和處理數(shù)據(jù),那么如何夸大和渲染,都是可以理解并接受的;但是,如果斷言的目的是為了勸導(dǎo)人們放棄傳統(tǒng)的抽樣理論,轉(zhuǎn)而皈依“大數(shù)據(jù)思維”,這就值得商榷。
縱觀科技史,人們對物體運動規(guī)律的研究,牛頓定律曾被認(rèn)為絕對正確。但隨著科學(xué)家們對微觀粒子世界,高速運動(近似光速)物體的研究,牛頓定律不再適用,而代之以量子力學(xué)和相對論。但這并不意味著牛頓定律的死亡,在人們生活所及的物理社會里,仍然是牛頓定律起主導(dǎo)作用。
信息社會也是如此,信息的不斷膨脹、變化、繁雜使得傳統(tǒng)抽樣統(tǒng)計方法顯得力不從心,于是所謂的“大數(shù)據(jù)思維”出現(xiàn)了。但“大數(shù)據(jù)”究竟是要取代傳統(tǒng)方法,還只是傳統(tǒng)方法的補充,有待于進一步的觀察。
質(zhì)疑:
對于“大數(shù)據(jù)思維”的三個轉(zhuǎn)變,可以提出三點質(zhì)疑:首先,如果通過分析少量的樣本數(shù)據(jù)就可以得到事物的準(zhǔn)確性質(zhì),是否還有必要花費成本去搜集全體數(shù)據(jù)?其次,如果能夠得到準(zhǔn)確數(shù)據(jù),還有必要刻意追求不準(zhǔn)確嗎?最后,如果能夠了解到因果關(guān)系,會視而不見,只去分析相關(guān)嗎?
合理的解釋是:首先,如果通過分析少量的樣本數(shù)據(jù)無法得到事物的性質(zhì),人們不得不花費更多成本去搜集全體數(shù)據(jù)來分析。其次,如果得不到準(zhǔn)確數(shù)據(jù),人們不得不接受不那么準(zhǔn)確的、差強人意的數(shù)據(jù)來進行分析。最后,如果不能夠了解到因果關(guān)系,人們會退而求其次,以分析相關(guān)關(guān)系來了解事物。
基于上述解釋,大數(shù)據(jù)方法不應(yīng)該是刻意為之,而應(yīng)該是不得已而為之。換言之,大數(shù)據(jù)方法僅在傳統(tǒng)的抽樣統(tǒng)計方法不起作用的時候有其用武之地。這就像只有當(dāng)物體的運動速度接近于光速時我們才用相對論取代牛頓定律。
當(dāng)然,不可否認(rèn),在飛速發(fā)展的網(wǎng)絡(luò)空間里,人們的研究對象,即數(shù)據(jù),變得越來越龐大,越來越繁雜模糊,越來越非結(jié)構(gòu)化,這一大趨勢使人們樂于接受大數(shù)據(jù)思維。舉個不太恰當(dāng)?shù)睦?,?dāng)人們不能解釋許多自然現(xiàn)象時,更容易接受某種宗教的解釋。
在信息爆炸的今天,傳統(tǒng)的抽樣統(tǒng)計方法不僅不應(yīng)該被拋棄,而應(yīng)該通過一系列改進得到加強,成為高效、實時反映事物狀態(tài)的主要手段之一。同時,我們歡迎并樂意采用新的方法,比如如日中天的“大數(shù)據(jù)方法”以及可能的“模糊數(shù)據(jù)方法”等等。
至此,一個關(guān)鍵問題出現(xiàn)了:面對一個具體事物,如何確定應(yīng)該用傳統(tǒng)方法還是大數(shù)據(jù)方法?當(dāng)物理學(xué)家研究微觀粒子之間的作用力時,會采用量子力學(xué);研究一個橋梁受力時,會采用牛頓力學(xué)。信息或數(shù)據(jù)專家們有這樣的理論或判別標(biāo)準(zhǔn)嗎?本文下一小節(jié)將對此展開討論。
分析:
首先,考察一般意義上的選取樣本大小的規(guī)則。
定理:設(shè)X1,X2…Xn為獨立同分布隨機變量,分布為p(x), x∈(x1,x2..xn),則一般抽樣樣本大小S為: