在《大數(shù)據(jù)時(shí)代》一書中,邁爾-舍恩伯格給出了著名的關(guān)于大數(shù)據(jù)時(shí)代的三大特征:1)不是隨機(jī)樣本,而是全體數(shù)據(jù);2)不是精準(zhǔn)性,而是混雜性;3)不是因果關(guān)系,而是相關(guān)關(guān)系。本文解讀一把為什么“不是隨機(jī)樣本,而是全體數(shù)據(jù)”。
為什么是隨機(jī)樣本?
首先什么是隨機(jī)樣本。如果你碰巧哪天在街頭被人攔住做問卷調(diào)查,或者接到電話問卷調(diào)查,恭喜你,你成為某項(xiàng)統(tǒng)計(jì)分析的隨機(jī)樣本。
很顯然,邁爾大叔所例舉的美國人口普查以及有關(guān)細(xì)分領(lǐng)域分析預(yù)測不準(zhǔn)確的例子,談到的隨機(jī)樣本應(yīng)該就是指問卷調(diào)查?;蛟S隨機(jī)樣本是邁爾大叔在書中唯一展示其有關(guān)統(tǒng)計(jì)學(xué)知識(shí)的部分。
那么,為什么要用隨機(jī)樣本呢?原因有下:一是全體數(shù)據(jù)獲取不可能或者成本太高。比如說你想知道北京有多少人吃過麥當(dāng)勞,你不可能每個(gè)人都問一遍;二是有資源限制。如果你要在3天內(nèi)給出答案,即使不計(jì)成本你也做不到去問每個(gè)人;三是沒有必要。因?yàn)槲覀兛赡苤皇切枰莱赃^麥當(dāng)勞的人數(shù)在北京總?cè)丝谥械陌俜直龋以试S一定的誤差,所以只要隨機(jī)取樣,通過統(tǒng)計(jì)分析就能夠得到比較滿意的答案。
根據(jù)統(tǒng)計(jì)學(xué)原理,如果我們隨機(jī)取樣1000人進(jìn)行問卷調(diào)查,如果結(jié)果是某種百分比,那么得到的結(jié)果在置信度90%時(shí)的誤差應(yīng)該在3%左右。
顯然,在數(shù)據(jù)需要通過問卷調(diào)查的形式獲取時(shí),隨機(jī)樣本就成為我們的首選甚至是唯一的選擇。
所以隨機(jī)樣本在小數(shù)據(jù)時(shí)代很流行。
為什么不是隨機(jī)樣本?
邁爾大叔對(duì)隨機(jī)樣本不高興,原因有三:1)實(shí)現(xiàn)采樣的隨機(jī)性非常困難;2)當(dāng)人們想了解更深層次的細(xì)分領(lǐng)域的情況時(shí),隨機(jī)采樣的方法就不可取了;3)人們只能從采樣數(shù)據(jù)中得出事先設(shè)計(jì)好的問題的結(jié)果。
白話一把邁爾大叔的內(nèi)容。1)樣本難以真正隨機(jī)是因?yàn)槟銦o法根據(jù)全體數(shù)據(jù)的分布去取樣。比如說你電話調(diào)查,有電話的人口就已經(jīng)不是隨機(jī)的樣本空間;2)如果你要進(jìn)一步知道海淀區(qū)30歲以下女性吃過麥當(dāng)勞的人口比例,結(jié)果誤差就會(huì)超過預(yù)期;3)問卷以外的內(nèi)容你是無知的。比如說你突然想要知道吃過麥當(dāng)勞的人中有多少同時(shí)吃過肯德基但你卻沒有在調(diào)查中問這個(gè)問題,那你就甭想得到答案。
全體數(shù)據(jù)在哪兒?
我們已經(jīng)處在大數(shù)據(jù)時(shí)代,如果你要了解北京有多少人吃過麥當(dāng)勞,你會(huì)怎么做?
顯然,麥當(dāng)勞童鞋并沒有為我們準(zhǔn)備好必要的所謂全體數(shù)據(jù)?;蛟S麥當(dāng)勞能夠告訴我們N多年來他們?cè)诒本┑貐^(qū)賣出了多少個(gè)巨無霸,或許麥當(dāng)勞會(huì)進(jìn)一步告訴我們N多年來北京地區(qū)有多少人次光顧過麥當(dāng)勞??墒?,麥當(dāng)勞卻沒有數(shù)據(jù)告訴我們現(xiàn)而今北京人有多少人吃過麥當(dāng)勞。
看來現(xiàn)實(shí)世界比邁爾大叔想象的要復(fù)雜得多。告別隨機(jī)樣本,我們需要全體數(shù)據(jù)??墒牵覀兯璧谋本┑貐^(qū)吃麥當(dāng)勞的全體數(shù)據(jù)存在嗎?
未來這個(gè)全體數(shù)據(jù)會(huì)存在嗎?也許,除非麥當(dāng)勞必須先注冊(cè)再購買。你認(rèn)為麥當(dāng)勞何時(shí)會(huì)實(shí)現(xiàn)先注冊(cè)再購買呢?這樣做真的有必要嗎?
即使如此,你仍舊面臨如何解決例如“究竟誰吃了全家桶”的問題。
全體數(shù)據(jù)是個(gè)抽象的概念。但涉及到具體問題,所需的全體數(shù)據(jù)很有可能并不存在,即使是在大數(shù)據(jù)時(shí)代。
要知道北京多少人吃過麥當(dāng)勞,可能還是需要進(jìn)行隨機(jī)樣本分析,哪怕是在大數(shù)據(jù)時(shí)代的今天。
看來即使是在大數(shù)據(jù)時(shí)代,我們還是無法告別隨機(jī)樣本分析。
何為全體數(shù)據(jù)?
在《大數(shù)據(jù)時(shí)代》一書中,全體數(shù)據(jù)是與隨機(jī)樣本相對(duì)立的概念。邁爾大叔這樣描述道:“首先,要分析與某事相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。”因而,全體數(shù)據(jù)明白無誤地就是“所有的相關(guān)數(shù)據(jù)”。
如果我們想要知道“北京地區(qū)有多少人吃過麥當(dāng)勞”,這個(gè)全體數(shù)據(jù)就應(yīng)該是北京地區(qū)所有人吃麥當(dāng)勞的情況。很遺憾,我們知道這個(gè)全體數(shù)據(jù)是不存在的。
看看《大數(shù)據(jù)時(shí)代》書中全體數(shù)據(jù)的一個(gè)案例:艾伯特-拉斯洛·巴拉巴西和他的同事想研究人與人之間的互動(dòng)。于是他們調(diào)查了四個(gè)月內(nèi)所有的移動(dòng)通信記錄——當(dāng)然是匿名的,這些記錄是一個(gè)為全美五分之一人口提供服務(wù)的無線運(yùn)營商提供的。這是第一次在全社會(huì)層面用接近于“樣本=總體”的數(shù)據(jù)資料進(jìn)行網(wǎng)絡(luò)分析。通過觀察數(shù)百萬人的所有通信記錄,我們可以產(chǎn)生也許通過任何其他方式都無法產(chǎn)生的新觀點(diǎn)。