其中:λ是常數(shù),H(X)= -∑p(xi)*log
p(xi),即隨機(jī)變量X的熵。
例1:了解總體為N個(gè)人對(duì)某事物的看法,是或否兩個(gè)選擇,其熵約為1,(假設(shè)兩種回答人數(shù)基本相當(dāng)),則在一定的置信度、置信區(qū)間的要求下(本文不做精確的抽樣理論推導(dǎo),僅舉例定性說明,以下同),S隨著N的增加(比如到10萬)逐步趨向?yàn)橐粋€(gè)常數(shù);400,此時(shí)λ=200。 可以證明,當(dāng)其它條件不變,隨著熵增加,S指數(shù)增加,λ保持不變。
換一個(gè)方式解釋λ。
定義1:λ是在一次抽樣中,“典型狀態(tài)”出現(xiàn)的期望值。
定義2:典型狀態(tài)指該狀態(tài)出現(xiàn)概率等于或近似等于相同熵值平均分布下各狀態(tài)出現(xiàn)概率的那個(gè)狀態(tài)。
舉例來說,X服從一個(gè)8狀態(tài)平均分布,其熵為3比特,其每個(gè)狀態(tài)都是“典型狀態(tài)”,其出現(xiàn)概率都是1/8。
如果X服從一個(gè)12個(gè)狀態(tài)的分布,其狀態(tài)分布概率為
p(x1,x2,x3,x4,x5…x12)=(1/3,1/5,1/6,1/7,1/8,1/15…1/50),H(X) ~=3 比特。其典型狀態(tài)是 x5, 出現(xiàn)概率為1/8.
基于上述規(guī)定,如果λ取1,H(X)=3,則樣本大小S =8,在一次抽樣中,典型狀態(tài)(出現(xiàn)概率1/8)出現(xiàn)次數(shù)的期望值為1,等于λ。但狀態(tài)出現(xiàn)是依概率的,盡管期望值為1,但觀察值也可能為0,2,3…,這樣的估計(jì)誤差過大。
如果λ取100,H(X)=3,則樣本大小S =800,在一次抽樣中,典型狀態(tài)出現(xiàn)的期望值為100,等于λ。其實(shí)際觀察值在極大概率下落在95-105之間,如果誤差可接受,取λ=100,否則,加大λ。
另外一個(gè)影響λ的因素是分層。將例1中的總體N分為高收入(20%),中等收入(50%),低收入(30%)3類人來調(diào)查對(duì)某事物看法。如果采用純隨機(jī)抽樣,要保證每層的分布得到準(zhǔn)確的估計(jì)結(jié)果,就要使得最少個(gè)體的層能夠抽到足夠數(shù)量,因此λ要乘5(20%的倒數(shù))。但事實(shí)上,人們更關(guān)心總體結(jié)果,兼顧分層的結(jié)果,因此,為了節(jié)約成本,實(shí)際的λ修正系數(shù)會(huì)小一些,比如取3,這時(shí),樣本大小約為1200 。這時(shí),不管總體是10萬人還是3億人,對(duì)1200人的樣本進(jìn)行的調(diào)查結(jié)果可以在3%的誤差范圍內(nèi)反映出實(shí)際情況。
通過以上分析可以看出,λ是一個(gè)100-1000之間的常數(shù),具體數(shù)值取決于調(diào)查方希望在一次抽樣中得到多少個(gè)典型狀態(tài)(或分層的)的個(gè)體(期望值),并滿足誤差要求。在確定了λ之后,樣本的大小就只和系統(tǒng)熵相關(guān),呈指數(shù)增長(zhǎng)關(guān)系,即公式(1)。
采用傳統(tǒng)抽樣方法時(shí),研究對(duì)象的隨機(jī)狀態(tài)和變化有限,或通過人為的分類使之變得有限,導(dǎo)致熵值很小,因此,使用較小的樣本就可以準(zhǔn)確地估計(jì)總體。加之那時(shí)的取樣成本很高,調(diào)查方要花費(fèi)很大精力設(shè)計(jì)抽樣方案,在不失精度的前提下,使得樣本規(guī)模盡量縮小。
互聯(lián)網(wǎng)時(shí)代的狀況恰恰相反,研究對(duì)象是互聯(lián)網(wǎng)的行為,獲取數(shù)據(jù)非常容易,因?yàn)閿?shù)據(jù)已經(jīng)產(chǎn)生,不管你用不用它,它就在那里。而互聯(lián)網(wǎng)上許多研究對(duì)象的狀態(tài)無限多,也很難統(tǒng)計(jì)歸類(比如“長(zhǎng)尾現(xiàn)象”),系統(tǒng)熵值很大,導(dǎo)致樣本規(guī)模巨大或根本無法確定規(guī)模。此時(shí),采用總體分析,即大數(shù)據(jù)方法就具有優(yōu)勢(shì)。當(dāng)然,即使總體數(shù)據(jù)已經(jīng)存在,對(duì)其整理和運(yùn)算也相當(dāng)消耗資源。一些情況下,采用抽樣的方法仍然是最佳的選擇。
現(xiàn)在,讓我們嘗試回答上節(jié)最后提出的問題:面對(duì)一個(gè)具體問題如何選取分析方法?
首先,考察研究對(duì)象所需的數(shù)據(jù)是否已經(jīng)在應(yīng)用中自動(dòng)被收集,比如,用戶的線上購(gòu)物行為。如果不是,比如線下購(gòu)物,需要研究者設(shè)計(jì)方法去收集數(shù)據(jù),此時(shí),應(yīng)該采用傳統(tǒng)抽樣方法。
其次,面對(duì)互聯(lián)網(wǎng)已經(jīng)(或可以實(shí)時(shí)在線)獲得的海量數(shù)據(jù),當(dāng)研究對(duì)象熵值小于5,建議仍采用傳統(tǒng)抽樣方式,可以得到更高效率;當(dāng)熵值介于5-15之間,總體分析或抽樣分析都可以考慮,視具體情況;熵值大于15,建議采用總體分析,即大數(shù)據(jù)方法。
上述建議仍然很抽象。在下一小節(jié)中,我們借用長(zhǎng)尾理論的描述方法,將統(tǒng)計(jì)研究對(duì)象分為4種類型,分別討論適用的方法。
分類: