然而當(dāng)我們收集了 1 萬個(gè)數(shù)據(jù)記錄后,情況就發(fā)生了很大的變化。我們來看最后 10 個(gè)數(shù)據(jù)相差情況已經(jīng)相當(dāng)相當(dāng)大了。
A 組數(shù)據(jù)和 B 組數(shù)據(jù),在擁有海量的數(shù)據(jù)樣本的情況下,相差已是十萬八千里了。圖十顯示了偏差隨樣本量增加的變化情況。在樣本數(shù)量為 4236 左右,偏差的增加還不明顯。一過 4236,偏差則出現(xiàn)了驚人的增長(zhǎng)。
圖十
所以依此為判斷的話,我們可以說在數(shù)據(jù)樣本量 4000 左右,A 組和 B 組比較,差別可能不大。但數(shù)據(jù)樣本量大于 4000 以后,A 組和 B 組比較,可能就會(huì)相當(dāng)不一樣了。這個(gè)例子充分說明了大數(shù)據(jù)相比較小數(shù)據(jù)而言對(duì)數(shù)據(jù)偏差更容易進(jìn)行識(shí)別,從而發(fā)現(xiàn)數(shù)據(jù)收集過程中的問題并加以改善。
虛假相關(guān)(spurious correlation)
虛假相關(guān),我們用一個(gè)例子來加以解釋說明。這兒還是以前面提到過的心血管數(shù)據(jù)為例?,F(xiàn)在只收集了 200 個(gè)記錄,但每條記錄都有 100 個(gè)各方各面因素的信息。這樣,我們想看是否這 100 個(gè)因素和“是否有心血管病”相關(guān)。如此,我們進(jìn)行兩兩檢驗(yàn)測(cè)試: 是否有心血管病和因素一進(jìn)行檢驗(yàn),是否有心血管病和因素二進(jìn)行檢驗(yàn)……是否有心血管病和因素一百進(jìn)行檢驗(yàn)。
每一個(gè)檢驗(yàn)測(cè)試結(jié)果只會(huì)出現(xiàn)兩種情況: 統(tǒng)計(jì)學(xué)上有意義和統(tǒng)計(jì)學(xué)上無意義。
統(tǒng)計(jì)學(xué)上有意義,簡(jiǎn)單來說就是認(rèn)為心血管病和該因素有關(guān)。統(tǒng)計(jì)學(xué)上無意義就是認(rèn)為心血管病和該因素?zé)o關(guān)。 在此過程中,你可能發(fā)現(xiàn),大約會(huì)有 5 次在統(tǒng)計(jì)學(xué)上被認(rèn)為與心血管病相關(guān)的因素,實(shí)際上從常識(shí)和現(xiàn)實(shí)來判斷是沒有任何關(guān)聯(lián)的,也就是說統(tǒng)計(jì)學(xué)上有意義是錯(cuò)誤的。這就是虛假相關(guān)。
為了讓我們能知其然也知其所以然,這兒要解釋一下“統(tǒng)計(jì)學(xué)上有意義”究竟是怎么界定的 。一般做檢驗(yàn)測(cè)試時(shí),我們會(huì)界定一個(gè)值,叫做第一類統(tǒng)計(jì)錯(cuò)誤率。這個(gè)錯(cuò)誤率通常被設(shè)定為 5%,也就是說每 100 次檢驗(yàn)測(cè)試,我們?cè)试S有 5 次在統(tǒng)計(jì)學(xué)上實(shí)際無意義的被錯(cuò)誤判斷為統(tǒng)計(jì)學(xué)上有意義(如果不允許統(tǒng)計(jì)錯(cuò)誤率的存在,那就是 100% 的正確率,也就是說沒有不確定性的存在。如果有這樣的數(shù)據(jù),就不需要做任何統(tǒng)計(jì)上的假設(shè)檢驗(yàn)了)。
也就是說,如果實(shí)際不存在相關(guān)性,我們?cè)试S 100 次假設(shè)檢驗(yàn)中出現(xiàn) 5 次錯(cuò)誤相關(guān)。這就是以上例子中出現(xiàn)虛假相關(guān)的原因。 在面對(duì)龐大的海量數(shù)據(jù)和超多維度的因素時(shí),當(dāng)同時(shí)對(duì)一個(gè)數(shù)據(jù)進(jìn)行許多檢驗(yàn)測(cè)試時(shí),不可避免會(huì)出現(xiàn)虛假相關(guān)。如何處理這個(gè)問題,統(tǒng)計(jì)學(xué)上還在做著進(jìn)一步的研究。
無意義顯著性(meaningless significance)
還有一種情況我們稱為無意義的顯著性 (Lin, Lucas, & Shmueli, 2013)。當(dāng)我們做兩組數(shù)據(jù)的分析比較時(shí),如果 A 組,B 組各只有 1000 個(gè)數(shù)據(jù)記錄,我們測(cè)試兩組數(shù)據(jù)的平均值是否一樣,結(jié)果告訴我們統(tǒng)計(jì)學(xué)上無意義。也就是說,這兩組數(shù)據(jù)的平均值無統(tǒng)計(jì)學(xué)上的差異。但當(dāng)數(shù)據(jù)記錄達(dá)到上萬上百萬時(shí),測(cè)試的結(jié)果告訴我們統(tǒng)計(jì)學(xué)上是有意義的了。
這又是怎么回事?我們回到源頭上去看,為什么要做兩組數(shù)據(jù)的統(tǒng)計(jì)分析比較?不可以就算出兩組的平均值,比一比他們是否相同嗎?當(dāng)然不可以,因?yàn)槲覀冋嬲M治霰容^的結(jié)果是能夠反映 100% 總體數(shù)量數(shù)據(jù)的客觀現(xiàn)象。單純孤立的比較兩組各 1000 個(gè)記錄的平均值,就是比大小,比出來的結(jié)論不能推廣到 100% 總體數(shù)量數(shù)據(jù)的客觀現(xiàn)象上。
但這兩組數(shù)據(jù)等同于 100% 總體數(shù)量數(shù)據(jù)嗎? 當(dāng)然不是,就算是海量的大數(shù)據(jù)也并不能 100% 等同于總體數(shù)量數(shù)據(jù)。這樣我們分析總結(jié)出的這兩組數(shù)據(jù)的一些統(tǒng)計(jì)指標(biāo)就會(huì)和總體數(shù)量數(shù)據(jù)的統(tǒng)計(jì)指標(biāo)有一定的偏差。這個(gè)偏差一般有一個(gè)下限和上限,我們稱為置信區(qū)間。真實(shí)的總體數(shù)量數(shù)據(jù)的統(tǒng)計(jì)指標(biāo)就落在樣本數(shù)據(jù)統(tǒng)計(jì)指標(biāo)的左邊或右邊的一定范圍內(nèi)(置信區(qū)間)。
好了,我們實(shí)際要看的是 A 組總體數(shù)量數(shù)據(jù)和 B 組總體數(shù)量數(shù)據(jù)在平均值上是否一樣,換種說法就是 A 組總體數(shù)量數(shù)據(jù)平均值減 B 組總體數(shù)量數(shù)據(jù)平均值是否等于零: ?,F(xiàn)在我們只有 A 組樣本數(shù)量數(shù)據(jù)平均值和 B 組樣本數(shù)量數(shù)據(jù)平均值,表達(dá)符號(hào)就是和。要看的就是 A 組樣本數(shù)量數(shù)據(jù)平均值減 B 組樣本數(shù)量數(shù)據(jù)平均值的差值是否等于 0: 但我們已經(jīng)知道由于樣本均分差的存在,樣本平均值相減的差值不一定是零,而且這個(gè)差值有一定的置信區(qū)間。