當(dāng)然,并不是任何數(shù)據(jù)都可以從現(xiàn)成的大數(shù)據(jù)中獲得,這里存在一個(gè)針對(duì)性、安全性和成本比較問題。因此,我們既要繼續(xù)采用傳統(tǒng)的方式方法去收集特定需要的數(shù)據(jù),又要善于利用現(xiàn)代網(wǎng)絡(luò)信息技術(shù)和各種數(shù)據(jù)源去收集一切相關(guān)的數(shù)據(jù),并善于從大數(shù)據(jù)中進(jìn)行再過濾、再選擇。問題在于什么是無用的或不重要的數(shù)據(jù)? 該如何過濾與選擇數(shù)據(jù)? 這就需要對(duì)已經(jīng)存在的數(shù)據(jù)進(jìn)行重要性分析、真?zhèn)蝿e和關(guān)聯(lián)物定位。
此外,大的數(shù)據(jù)庫可能需要將信息分散在不同的硬盤或電腦上,這樣一來,在不能同步更新數(shù)據(jù)信息的情況下如何選擇、調(diào)用和匹配數(shù)據(jù)又是一個(gè)問題。因此從某種意義上講,從大數(shù)據(jù)中收集數(shù)據(jù)就是識(shí)別、整理、提煉、汲取( 刪除) 、分配和存儲(chǔ)元數(shù)據(jù)的過程。
(三)分析數(shù)據(jù)的思維要變化。基于上述兩個(gè)變化,數(shù)據(jù)分析的思維必然要跟著變化,那就是要主動(dòng)利用現(xiàn)代信息技術(shù)與各種軟件工具從大數(shù)據(jù)中挖掘出有價(jià)值的信息,并在這個(gè)過程中豐富和發(fā)展統(tǒng)計(jì)分析方法。
關(guān)于數(shù)據(jù)分析思維的變化,特別需要強(qiáng)調(diào)三點(diǎn):
第一,傳統(tǒng)的統(tǒng)計(jì)分析過程是“定性—定量—再定性”,第一個(gè)定性是為了找準(zhǔn)定量分析的方向,主要靠經(jīng)驗(yàn)判斷,這在數(shù)據(jù)短缺、分析運(yùn)算手段有限的情況下很重要。現(xiàn)在我們是在大數(shù)據(jù)中找礦,直接依賴數(shù)據(jù)分析做出判斷,因此基礎(chǔ)性的工作就是找到“定量的回應(yīng)”,這在存儲(chǔ)能力大為增強(qiáng)、分析技術(shù)與分析速度大為提高的今天,探測“定量的回應(yīng)”變得越來越簡單,所要做的就是直接從各種“定量的回應(yīng)”中找出那些真正的、重要的數(shù)量特征和數(shù)量關(guān)系,得出可以作為判斷或決策依據(jù)的結(jié)論,因此統(tǒng)計(jì)分析的過程可以簡化為“定量—定性”,從而大大提高得到新的定性結(jié)論的可能性。
第二,傳統(tǒng)的統(tǒng)計(jì)實(shí)證分析,一般都要先根據(jù)研究目的提出某種假設(shè),然后通過數(shù)據(jù)的收集與分析去驗(yàn)證該假設(shè)是否成立,其分析思路是“假設(shè)—驗(yàn)證”,但這種驗(yàn)證往往由于受到假設(shè)的局限、指標(biāo)選擇的失當(dāng)、所需數(shù)據(jù)的缺失而得不出真正的結(jié)論。特別是,一旦假設(shè)本身不科學(xué)、不符合實(shí)際,那么分析結(jié)論就毫無用處、甚至扭曲事實(shí)真相。事實(shí)證明,很多這樣的實(shí)證分析純粹是為了湊合假設(shè)?,F(xiàn)在,我們有了大數(shù)據(jù),可以不受任何假設(shè)的限制而從中去尋找關(guān)系、發(fā)現(xiàn)規(guī)律,然后再加以總結(jié)、形成結(jié)論。也就是說,分析的思路是“發(fā)現(xiàn)—總結(jié)”。這將極大地豐富統(tǒng)計(jì)分析的資源與空間,有助于發(fā)現(xiàn)更多意外的“發(fā)現(xiàn)”。
第三,傳統(tǒng)的統(tǒng)計(jì)推斷分析,通常是基于分布理論,以一定的概率為保證,根據(jù)樣本特征去推斷總體特征,其邏輯關(guān)系是“分布理論—概率保證—總體推斷”,推斷的評(píng)判標(biāo)準(zhǔn)與具體樣本無關(guān),但推斷是否正確卻取決于樣本的好壞。現(xiàn)在,大數(shù)據(jù)強(qiáng)調(diào)的是全體數(shù)據(jù),總體特征不再需要根據(jù)分布理論進(jìn)行推斷,只需進(jìn)行計(jì)數(shù)或計(jì)量處理即可。不僅如此,還可以根據(jù)全面數(shù)據(jù)和實(shí)際分布來判斷其中出現(xiàn)某類情況的可能性有多大,其邏輯關(guān)系變成了“實(shí)際分布—總體特征—概率判斷”,也即概率不再是事先預(yù)設(shè),而是基于實(shí)際分布得出的判斷。按照邁爾 -舍恩伯格的觀點(diǎn),這個(gè)概率判斷就可用于預(yù)測了。
伴隨著上述三大變化,統(tǒng)計(jì)分析評(píng)價(jià)的標(biāo)準(zhǔn)又該如何變化?傳統(tǒng)統(tǒng)計(jì)分析的評(píng)價(jià)標(biāo)準(zhǔn)無非兩個(gè)方面,一是可靠性評(píng)價(jià),二是有效性評(píng)價(jià),而這兩種評(píng)價(jià)都因抽樣而生。所謂可靠性評(píng)價(jià)是指用樣本去推斷總體有多大的把握程度,是以概率來度量的———有時(shí)表現(xiàn)為置信水平,有時(shí)表現(xiàn)為顯著性水平。特別是在假設(shè)檢驗(yàn)和模型擬合度評(píng)價(jià)中,顯著性水平怎么定是一個(gè)難題,一直存在爭議,因?yàn)樗鶇⒄盏姆植碱愋筒煌浣y(tǒng)計(jì)量就不同,顯著性評(píng)價(jià)的臨界值就不同,而臨界值又與顯著性水平的高低直接相關(guān)。然而在大數(shù)據(jù)的背景下,大數(shù)據(jù)在一定程度上就是全體數(shù)據(jù),我們可以對(duì)全體數(shù)據(jù)進(jìn)行計(jì)數(shù)或計(jì)量分析,這就不存在以樣本推斷總體的問題了,那么這時(shí)還有沒有可靠性的問題? 還要不要確定置信水平?怎么確定? 依據(jù)是什么? 如何比較來自不同容量數(shù)據(jù)庫的分析結(jié)論的可靠性?