二、統(tǒng)計(jì)思維的變化
改變統(tǒng)計(jì)思維,是大數(shù)據(jù)時(shí)代的必然要求。否則,統(tǒng)計(jì)學(xué)科就有可能被大數(shù)據(jù)的潮流所吞沒,至少會(huì)被邊緣化,失去一次重要的參與推動(dòng)歷史變革的機(jī)遇。當(dāng)然,統(tǒng)計(jì)思維的變化應(yīng)該以一個(gè)永恒不變的主題為前提,那就是通過數(shù)據(jù)分析去揭示事物的真相,這個(gè)真相就是事物的生存規(guī)律、聯(lián)系規(guī)律和發(fā)展規(guī)律。也就是說,數(shù)據(jù)分析要以數(shù)據(jù)背后的數(shù)據(jù)去還原事物的本來面目,以達(dá)到求真的目的。如果說,我們?cè)瓉硐抻诟鞣N條件只能根據(jù)有限的樣本數(shù)據(jù)去實(shí)現(xiàn)這個(gè)目的,那么現(xiàn)在我們則可以在很多方面借助大數(shù)據(jù)去實(shí)現(xiàn)這個(gè)目的,關(guān)鍵就看我們開展數(shù)據(jù)分析的能力有多大,或者說利用大數(shù)據(jù)、從一切數(shù)據(jù)中提取有價(jià)值信息的能力有多大——因?yàn)榇髷?shù)據(jù)無疑增加了統(tǒng)計(jì)分析的難度,而這又首先取決于我們統(tǒng)計(jì)思維能否適應(yīng)大數(shù)據(jù)時(shí)代的變化。正如邁爾·舍恩伯格所說: 大數(shù)據(jù)發(fā)展的核心動(dòng)力就是人類測(cè)量、記錄和分析世界的渴望。
那么,統(tǒng)計(jì)思維應(yīng)該發(fā)生怎樣的變化? 筆者認(rèn)為主要要有如下三大變化:
(一)認(rèn)識(shí)數(shù)據(jù)的思維要變化。前面已經(jīng)提到,與傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)不僅體量大、變化快,而且其來源、類型和量化方式都發(fā)生了根本性的變化,使得數(shù)據(jù)雜亂、多樣、不規(guī)整。
首先,從來源上看,傳統(tǒng)的數(shù)據(jù)收集因?yàn)榫哂泻軓?qiáng)的針對(duì)性,因此數(shù)據(jù)的提供者大多是確定的,身份特征是可識(shí)別的,有的還可以進(jìn)行事后核對(duì)。但大數(shù)據(jù)通常來源于物聯(lián)網(wǎng),不是為了特定的數(shù)據(jù)收集目的而產(chǎn)生,而是人們一切可記錄的信號(hào)(當(dāng)然,任何信號(hào)的產(chǎn)生都有其目的,但它們是發(fā)散的) ,并且身份識(shí)別十分困難。從某種意義上講,大數(shù)據(jù)來源的微觀基礎(chǔ)是很難追溯的。
其次,從類型上看,傳統(tǒng)數(shù)據(jù)基本上是結(jié)構(gòu)型數(shù)據(jù),即定量數(shù)據(jù)加上少量專門設(shè)計(jì)的定性數(shù)據(jù),格式化,有標(biāo)準(zhǔn),可以用常規(guī)的統(tǒng)計(jì)指標(biāo)或統(tǒng)計(jì)圖表加以表現(xiàn)。但大數(shù)據(jù)更多的是非結(jié)構(gòu)型數(shù)據(jù)、半結(jié)構(gòu)型數(shù)據(jù)或異構(gòu)數(shù)據(jù),包括了一切可記錄、可存儲(chǔ)的信號(hào),多樣化、無標(biāo)準(zhǔn)、難以用傳統(tǒng)的統(tǒng)計(jì)指標(biāo)或統(tǒng)計(jì)圖表加以表現(xiàn)。同時(shí),不同的網(wǎng)絡(luò)信息系統(tǒng)有不同的數(shù)據(jù)識(shí)別方式,相互之間也沒用統(tǒng)一的數(shù)據(jù)分類標(biāo)準(zhǔn)。再者,現(xiàn)在有的數(shù)據(jù)庫是非關(guān)系型的數(shù)據(jù)庫,不需要預(yù)先設(shè)定記錄結(jié)構(gòu)即可自動(dòng)包容大量各種各樣的數(shù)據(jù)。
第三,從量化方式上看,傳統(tǒng)數(shù)據(jù)的量化處理已經(jīng)有一整套較為完整的方式與過程,量化的結(jié)果可直接用于各種運(yùn)算與分析。但大數(shù)據(jù)中大量的非結(jié)構(gòu)化數(shù)據(jù)如何量化(結(jié)構(gòu)化)、如何從中提取信息、如何與結(jié)構(gòu)化數(shù)據(jù)對(duì)接是一個(gè)嶄新的問題。正如Franks 所說: “幾乎沒有哪種分析過程能夠直接對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,也無法直接從非結(jié)構(gòu)化的數(shù)據(jù)中得出結(jié)論。”更為重要的是,“量化”的含義恐怕也不一樣了,即此“量化”不一定等同于彼“量化”,量化結(jié)果的表現(xiàn)形式自然也不相同。顯然,我們不能套用已有的方式去量化非結(jié)構(gòu)化數(shù)據(jù)。
可以說,大數(shù)據(jù)是雜亂、不規(guī)整、良莠不齊的,但我們不能因此而回避它、拒絕它,只能接納它、包容它。我們需要將統(tǒng)計(jì)研究的對(duì)象范圍從結(jié)構(gòu)型數(shù)據(jù)擴(kuò)展到一切數(shù)據(jù),需要重新思考數(shù)據(jù)的定義和分類方法,并以此為基礎(chǔ)發(fā)展和創(chuàng)新統(tǒng)計(jì)分析方法。從某種意義上講,沒有無用的數(shù)據(jù),只有未被欣賞的數(shù)據(jù),關(guān)鍵是我們從哪個(gè)角度看數(shù)據(jù)。
(二)收集數(shù)據(jù)的思維要變化。收集數(shù)據(jù)是開展統(tǒng)計(jì)分析的前提,“沒有黏土,如何做磚?”以往,收集統(tǒng)計(jì)數(shù)據(jù)的思維是先確定統(tǒng)計(jì)分析研究的目的,然后需要什么數(shù)據(jù)就收集什么數(shù)據(jù),所以要精心設(shè)計(jì)調(diào)查方案,嚴(yán)格執(zhí)行每個(gè)流程,但往往是投入大而數(shù)據(jù)量有限?,F(xiàn)在,我們擁有了大數(shù)據(jù),就等于擁有了超大量可選擇的數(shù)據(jù)——備選“黏土”的體量與種類都極大地增加了,所要做的最重要的工作就是比較與選擇,因此我們的思維應(yīng)該是如何充分利用大數(shù)據(jù),凡是大數(shù)據(jù)源中能找到的數(shù)據(jù)就不再需要進(jìn)行專門的調(diào)查。
但是,由于大數(shù)據(jù)來源與種類的多樣性,以及數(shù)據(jù)增加的快速性,我們?cè)谙硎軘?shù)據(jù)的豐富性的同時(shí)也不得不面臨這樣一些困境: 存儲(chǔ)能力夠不夠,分析能力夠不夠(是否及時(shí)、充分),如何甄別數(shù)據(jù)的真?zhèn)?,如何選擇關(guān)聯(lián)物,如何提煉和利用數(shù)據(jù),如何確定分析節(jié)點(diǎn)? 現(xiàn)在TB級(jí)的數(shù)據(jù)庫已經(jīng)很多,PB 級(jí)的數(shù)據(jù)庫也不少見,以后還會(huì)出現(xiàn)EB、甚至ZB、YB級(jí)的數(shù)據(jù)庫。今天的大數(shù)據(jù),明天就不再是大數(shù)據(jù)。這樣一來,