第二類:“翹尾模型”。此時,研究對象的狀態(tài)較明確且數(shù)量較多,出現(xiàn)概率很小的狀態(tài)相對失去統(tǒng)計意義,在統(tǒng)計上把這些狀態(tài)統(tǒng)一歸類為“其它”狀態(tài)。絕大多數(shù)情況下,由于其它狀態(tài)是由許多狀態(tài)構(gòu)成的,其出現(xiàn)概率的和高于排列在前的某些較小概率狀態(tài)的概率,因此,總體概率分布曲線及帕累托曲線在尾部會出現(xiàn)上翹,即所謂“翹尾模型”。為了保證統(tǒng)計效果,其它狀態(tài)總的概率一般不超過5%。這時,二八現(xiàn)象極為顯著,便于“ABC分析”和重點管理,因此翹尾模型在企業(yè)管理上應用極為廣泛。如質(zhì)量管理(缺陷分析),庫存管理(零配件庫、商店、賣場,特別是實體書店,可與后面網(wǎng)絡書店的長尾現(xiàn)象比較)等。
以上兩種模型運用傳統(tǒng)的抽樣方法均可以取得良好的統(tǒng)計結(jié)果。隨著對象狀態(tài)數(shù)量增加,并不存在明顯界限。以收視率調(diào)查為例:選擇3萬個調(diào)查樣本戶進行收視調(diào)查,當有二、三十個電視臺臺時,收視率最低的電視臺也能得到顯著的觀察值,可以認為是無尾模型。當電視臺數(shù)量超過100,許多收視率達不到0.3%的電視臺在一次抽樣中就無法達到可以保證相對精度的觀測值,此時,既可以擴大樣本范圍來滿足精度要求,也可以將小于0.3%的狀態(tài)合并為“其它”,采用“翹尾模型”。
隨著三網(wǎng)融合的進展,絕大多數(shù)電視機將具有雙向功能,總體數(shù)據(jù)變得唾手可得,此時,抽樣方法仍然有效,它可以用來做實時的、頻繁的統(tǒng)計,而采用總體的大數(shù)據(jù)方法可以定時進行校正,畢竟處理幾萬個樣本比處理幾億條總體數(shù)據(jù)要迅速、便宜得多。
第三類:“長尾模型”。此時,研究對象的狀態(tài)不夠明確且數(shù)量很多,出現(xiàn)概率很小、相對失去統(tǒng)計意義的狀態(tài)眾多。但是,這些小概率狀態(tài)的全部或部分和占到總體狀態(tài)的30%-40%,甚至更多。反映在概率分布或帕累托圖上就形成一個長長的尾巴(漸進于X軸或Y=1的直線)。如果采用翹尾模型,用抽樣的辦法,會使總體的30%-40%,甚至更多的狀態(tài)無法描述。從而必須采用全體數(shù)據(jù)即大數(shù)據(jù)的方法。
舉例來說:一個實體書店的貨架上有1000種書籍,經(jīng)過統(tǒng)計,老板會發(fā)現(xiàn),賣得好的前200種書占到其銷售額的80%以上,而賣得不好的后500種書的占比甚至不到5%,統(tǒng)計上可以并為一類。這就是所謂“二八現(xiàn)象”,老板采用抽樣統(tǒng)計的方法可以掌握占銷售額95%的書籍的分布情況。而一個網(wǎng)絡書店的數(shù)據(jù)庫中可能列有20萬種書籍,其中熱賣的200種占銷售額的20%,前2000種共占到40%。而余下的19.8萬種書籍構(gòu)成其余60%的銷售額,但每種份額是如此之小,以至于無論如何擴大樣本,都不易被顯著地觀察到。在這種情況下只能采用大數(shù)據(jù)方法,否則,60%的銷售額都不知道從哪里產(chǎn)生的統(tǒng)計還有什么作用。
第四類:“全尾模型”。此時,研究對象的狀態(tài)很不明確、甚至未知,而數(shù)量極多甚至無限,正常情況下,無論如何選擇樣本都無法在統(tǒng)計意義上顯著地得到各個狀態(tài)的觀察值,一旦可以觀察到,說明出現(xiàn)異常。其分布曲線是無限接近且平行于X軸的直線。所以我們也可以稱之為“平尾”。
典型的例子如關鍵詞搜索,事先無法確定狀態(tài),即系統(tǒng)事先不知道用戶要搜索什么,且搜索的內(nèi)容可能無限多,因此無法事先設計抽樣模型。采用分析全體的大數(shù)據(jù)方法,可以在出現(xiàn)異常時即使發(fā)現(xiàn)并加以分析。比如,某種疾病或藥物的名詞在某一地區(qū)的搜索量大增,就可以預測這一地區(qū)可能流行某種疾病。事實上,谷歌的大數(shù)據(jù)分析在這方面已經(jīng)比傳統(tǒng)的流行病預測機制和機構(gòu)做得更好、更有效率。