試想一下,如果研究人員采用了數(shù)據(jù)庫中所有的數(shù)據(jù),則可能將更多的人際關(guān)系發(fā)展的變化也包括進(jìn)來,這反倒可能影響研究的結(jié)果。所以說,全體數(shù)據(jù)不加區(qū)別的應(yīng)用并不一定是最佳的選擇。
再舉一個對全體數(shù)據(jù)進(jìn)行取樣分析的例子。早年我曾經(jīng)做過一個搜索引擎算法分析的應(yīng)用,原理就是根據(jù)隨機(jī)取樣的關(guān)鍵詞,到各大搜索引擎(美國的)上去爬取搜索結(jié)果的網(wǎng)頁,分析各種SEO技術(shù)對各搜索引擎網(wǎng)頁排名的影響。時間長了,我所爬取的網(wǎng)頁數(shù)據(jù)庫也就成了邁爾大叔所謂的全體數(shù)據(jù)。我是不是應(yīng)該每次分析時都使用所有的數(shù)據(jù)呢?當(dāng)然不是。因為搜索引擎在不斷改變其搜索排名的算法,如果我將已經(jīng)過時的排名網(wǎng)頁信息包括在我的搜索引擎排名關(guān)鍵因素的分析中,那就會適得其反導(dǎo)致分析結(jié)果的不準(zhǔn)確。
邁爾大叔數(shù)次提起的有關(guān)飛機(jī)票價預(yù)測的數(shù)據(jù)分析,也存在著同樣的情況。航空公司可能會改變其機(jī)票價格的決定機(jī)制。如果在票價預(yù)測分析中包含了已經(jīng)過時的票價決定機(jī)制的信息,那分析的結(jié)果就會受到干擾而增加誤差。
數(shù)據(jù)并非絕對越多越好。即使是全體數(shù)據(jù),也要根據(jù)分析任務(wù)進(jìn)行必要的取樣。原因可能是多種,適當(dāng)?shù)娜邮莾?yōu)化分析過程和分析結(jié)果的一種選擇。而且,取樣也不只限于隨機(jī)取樣。
全體數(shù)據(jù)的陷阱
第一個陷阱就是所謂全體數(shù)據(jù),在絕大多數(shù)情況下并不是“全體”。我們來看看那些絕對重量級的互聯(lián)網(wǎng)企業(yè),它們最可能擁有所謂全體數(shù)據(jù),比如說谷歌、百度、FACEBOOK、淘寶天貓,哪個公司的數(shù)據(jù)庫能夠被稱為“全體”呢?
一個企業(yè)有了數(shù)據(jù)庫,往往更愿意局限于自己的數(shù)據(jù)庫來進(jìn)行各種分析。有句老話叫做“種瓜得瓜種豆得豆”。這個全體數(shù)據(jù)分析的陷阱就是:如果你種的是瓜,你就分析不出豆來。
例如某新聞網(wǎng)站經(jīng)常用很黃很暴力的新聞吸引網(wǎng)友下載它的新聞app。久而久之,其app的用戶就可能是“黃衫軍”了。如果這時你想通過這個“全體數(shù)據(jù)”的分析了解怎樣在他們中間推銷紅汗衫,肯定是不妥的。
再舉一個簡單的例子。比如說你通過對全體數(shù)據(jù)的分析,得出某款商品是你顧客最喜歡的。但實際情況果真如此嗎?或許顧客喜歡的商品根本就不在你的全體數(shù)據(jù)里,所以你再怎么分析也根本得不到你的顧客最喜歡什么樣的商品。
外面的世界很精彩。你經(jīng)常需要跳出全體數(shù)據(jù),來體驗外面世界的精彩。
全體數(shù)據(jù)與隨機(jī)樣本
隨機(jī)樣本與所謂的全體數(shù)據(jù)應(yīng)該屬于兩個不同范疇的概念,兩者并非楊白勞Vs黃世仁,階級斗爭不可調(diào)和。更重要的是,無論是隨機(jī)樣本,還是所謂的全體數(shù)據(jù)分析,都不應(yīng)該是一個時代的代表。
事實是,即使擁有全體數(shù)據(jù),隨機(jī)取樣的問卷調(diào)查分析也是需要的,甚至是必須的。
因為全體數(shù)據(jù)幾乎都不是什么真正的“全體”數(shù)據(jù),不可能包含所有我們想了解的信息,所以經(jīng)常需要在全體數(shù)據(jù)的基礎(chǔ)上獲得更多的信息。其中一種來源是與其他“全體數(shù)據(jù)”對接,比如說在美國可以根據(jù)個人社會保險號對接個人信用信息;另一種方法就是在“全體數(shù)據(jù)”中隨機(jī)(或用其他方法)選取部分樣本,然后對這些顧客進(jìn)行問卷調(diào)查,以補(bǔ)充數(shù)據(jù)庫中缺失的信息,然后通過對接將問卷調(diào)查的信息融入到全體數(shù)據(jù)的分析中。
這樣的分析邁爾大叔應(yīng)該沒有聽說過,否則他就不會將隨機(jī)樣本與全體數(shù)據(jù)這樣絕對地對立起來。但這樣的分析卻在小數(shù)據(jù)時代就被普遍應(yīng)用了。
文章最后對隨機(jī)樣本和所謂全體數(shù)據(jù)做個總結(jié):
1)邁爾大叔所謂的全體數(shù)據(jù),在絕大多數(shù)情況下只是指企業(yè)的數(shù)據(jù)庫數(shù)據(jù);
2)對絕大多數(shù)問題,所謂的全體數(shù)據(jù)可能都不存在;
3)隨機(jī)樣本與所謂全體數(shù)據(jù)并不是你死我活的絕對對立,而是可以和平共處,甚至是相互補(bǔ)充;
4)絕大多數(shù)所謂對全體數(shù)據(jù)的分析方法,早在小數(shù)據(jù)時代就已經(jīng)普遍存在;
5)隨機(jī)樣本分析在大數(shù)據(jù)時代也還會繼續(xù)展示其存在價值;
6)即使是所謂的全體數(shù)據(jù),往往也有必要通過取樣進(jìn)行更有效的分析;
7)注意全體數(shù)據(jù)的陷阱。分析所謂全體數(shù)據(jù)時,應(yīng)該想到外面世界可能更精彩。