邁爾大叔的這個(gè)全體數(shù)據(jù)是“一個(gè)為全美五分之一人口提供服務(wù)的無線運(yùn)營商提供的”“四個(gè)月內(nèi)所有的移動(dòng)通信記錄”。啥意思?說白了,就是一家移動(dòng)公司四個(gè)月的通信記錄。令人不解的是,雖然這僅僅是全美1/5人口四個(gè)月的通信記錄,邁爾大叔卻說“這是第一次在全社會(huì)層面用接近于“樣本=總體”的數(shù)據(jù)資料進(jìn)行網(wǎng)絡(luò)分析。”
“全社會(huì)”與“全美1/5人口”,“樣本=總體”與“四個(gè)月內(nèi)所有的移動(dòng)通信記錄”,其間如何聯(lián)系在一起?
還有,如果四個(gè)月的數(shù)據(jù)是全體數(shù)據(jù),那三個(gè)月或者兩個(gè)月的數(shù)據(jù)算不算全體數(shù)據(jù)呢?
看來貌似簡(jiǎn)單的全體數(shù)據(jù),在邁爾大叔這里也不是那么簡(jiǎn)單。
全體數(shù)據(jù)的前世今生
上面案例中涉及的全體數(shù)據(jù),實(shí)質(zhì)上就是一家移動(dòng)運(yùn)營商數(shù)據(jù)庫中四個(gè)月的通信數(shù)據(jù)。從《大數(shù)據(jù)時(shí)代》中對(duì)全體數(shù)據(jù)的諸多應(yīng)用可以看到,邁爾大叔所說的全體數(shù)據(jù),實(shí)際上就是我們通常所說的數(shù)據(jù)庫數(shù)據(jù)。
“全體”或許只是指包含了數(shù)據(jù)庫中所有的記錄。
即使在互聯(lián)網(wǎng)流行之前,因?yàn)橛辛擞?jì)算機(jī)以及數(shù)據(jù)庫技術(shù),人類已經(jīng)開始數(shù)據(jù)的記錄和累積。特別是一些特殊的行業(yè)如銀行、電信等,顧客的購買記錄最先被完整地記錄下來,從而構(gòu)成了邁爾大叔所謂的全體數(shù)據(jù)。
這絕對(duì)是小數(shù)據(jù)時(shí)代的故事。也就是說,所謂全體數(shù)據(jù)并不是大數(shù)據(jù)時(shí)代的產(chǎn)物,全體數(shù)據(jù)在小數(shù)據(jù)時(shí)代就已經(jīng)普遍存在了。
對(duì)所謂全體數(shù)據(jù)的分析以及基本的統(tǒng)計(jì)分析方法也是小數(shù)據(jù)時(shí)代的普遍現(xiàn)象。
被人們津津樂道的食品超市啤酒搭著尿布一起賣的故事,其數(shù)據(jù)來源甚至可能都不是所謂全體數(shù)據(jù),因?yàn)槭称烦胁]有強(qiáng)求每個(gè)消費(fèi)者都要注冊(cè)后才能購買。
全體數(shù)據(jù)并不是我們想象的那樣是“所有的數(shù)據(jù)”,甚至也不是邁爾大叔想象的那樣是“所有相關(guān)的數(shù)據(jù)”。全體數(shù)據(jù)依舊是部分?jǐn)?shù)據(jù),比如說只包含了一家公司的顧客數(shù)據(jù)。全體數(shù)據(jù)依舊是取樣數(shù)據(jù),比如說上面案列中的四個(gè)月的取樣。
誰說取樣必須只是隨機(jī)取樣呢?
全體數(shù)據(jù)的分析誤差
邁爾大叔對(duì)隨機(jī)樣本生氣的一個(gè)主要原因,就是基于隨機(jī)取樣的分析與真實(shí)情況有統(tǒng)計(jì)誤差,不準(zhǔn)確。那么,有了全體數(shù)據(jù),我們的分析結(jié)果就一定沒有誤差了嗎?
假定我們確實(shí)有關(guān)于北京地區(qū)吃麥當(dāng)勞的全體數(shù)據(jù)。是的,如果有了所謂的全體數(shù)據(jù),關(guān)于單個(gè)變量的分析結(jié)果確實(shí)沒有統(tǒng)計(jì)上的誤差,實(shí)際上此分析也根本用不到統(tǒng)計(jì)學(xué)的概念??墒?,我們花那么大精力搞一個(gè)全體數(shù)據(jù),肯定不只是計(jì)算一些百分比,或者進(jìn)行一些簡(jiǎn)單的單元分析。我們要用這個(gè)全體數(shù)據(jù)來做更多的事,比如說預(yù)測(cè)哪些顧客下次來會(huì)購買巨無霸。分析師會(huì)給我們一批顧客名單,告訴我們:這些顧客75%的可能下次購買巨無霸。
75%的可能?也就是說這個(gè)顧客還有25%的可能下次不買巨無霸。這就是分析誤差。
事實(shí)是,除了單個(gè)變量的計(jì)算(對(duì)全體數(shù)據(jù)來說不是統(tǒng)計(jì)分析),全體數(shù)據(jù)在做任何統(tǒng)計(jì)分析時(shí),分析結(jié)果都是概率性的,都有統(tǒng)計(jì)意義上的誤差。
可是《大數(shù)據(jù)時(shí)代》給讀者的印象是,只要用了全體數(shù)據(jù),你就不用再擔(dān)心誤差了。
全體數(shù)據(jù)的取樣
根據(jù)《大數(shù)據(jù)時(shí)代》,用了全體數(shù)據(jù),我們就再也不需要取樣了。事實(shí)果然如此嗎?
有意思的是,在上面邁爾大叔給我們提供的全體數(shù)據(jù)分析的案例里,研究人員只取了數(shù)據(jù)庫里4個(gè)月的數(shù)據(jù)。為什么只是4個(gè)月的數(shù)據(jù)?難道該企業(yè)的數(shù)據(jù)庫只有4個(gè)月的數(shù)據(jù)?
當(dāng)然不是!事實(shí)應(yīng)該是研究人員從企業(yè)的數(shù)據(jù)庫里之取樣了四個(gè)月的數(shù)據(jù)。那么,為什么即使有了“全體數(shù)據(jù)”,研究人員還只取了其中四個(gè)月的數(shù)據(jù)?
因?yàn)閷?duì)數(shù)據(jù)分析來說,絕對(duì)不是數(shù)據(jù)越多越好。即使我們擁有無與倫比的計(jì)算速度,過多的數(shù)據(jù)也會(huì)浪費(fèi)研究人員的時(shí)間資源,不必要的數(shù)據(jù)甚至可能影響分析的結(jié)果。何況根據(jù)邁爾大叔的介紹,4個(gè)月的數(shù)據(jù)取樣已足以得到滿意的研究結(jié)果了。
看來有了全體數(shù)據(jù),也有必要進(jìn)行數(shù)據(jù)取樣。
更多關(guān)于全體數(shù)據(jù)的取樣
就上篇文章中邁爾大叔所舉的那個(gè)全體數(shù)據(jù)的例子來說,分析人員只取了數(shù)據(jù)庫中四個(gè)月的數(shù)據(jù)進(jìn)行分析。為什么?因?yàn)榉治龅娜蝿?wù)不是要得到數(shù)據(jù)庫中每個(gè)顧客長期的人脈關(guān)系,而是通過一定時(shí)期內(nèi)人際關(guān)系的分析,了解擁有不同人際關(guān)系的個(gè)人對(duì)整個(gè)社區(qū)關(guān)系網(wǎng)的影響。因此,適當(dāng)?shù)碾A段性數(shù)據(jù)的取樣就十分必要。