(四)需要強(qiáng)化結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的對(duì)接研究
有效實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的對(duì)接,是數(shù)據(jù)概念拓展的必然結(jié)果。盡管大數(shù)據(jù)是超大量數(shù)據(jù),但大數(shù)據(jù)不能涵蓋所有的數(shù)據(jù),因此傳統(tǒng)意義上的結(jié)構(gòu)化數(shù)據(jù)與大數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù)必將長(zhǎng)期并存。大數(shù)據(jù)時(shí)代的來臨,使得數(shù)據(jù)收集、存儲(chǔ)與分析的能力大為增強(qiáng),而且步伐越來越快,但出于針對(duì)性與安全性考慮,總有一些結(jié)構(gòu)化數(shù)據(jù)要通過專門的方式去收集而不能依賴于公共網(wǎng)絡(luò)系統(tǒng)(例如政府統(tǒng)計(jì)數(shù)據(jù),專題研究數(shù)據(jù))。這樣,如何既能有針對(duì)性地收集所需的結(jié)構(gòu)化數(shù)據(jù),又能從大量非結(jié)構(gòu)化數(shù)據(jù)中挖掘出有價(jià)值的信息,使兩者相輔相成、有機(jī)結(jié)合,就成了一個(gè)新的課題,值得探討的問題包括非結(jié)構(gòu)化數(shù)據(jù)如何結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù)能否采用非結(jié)構(gòu)化的表現(xiàn)形式等。通過特定的方法,實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)化與對(duì)接是完全可能的。但要實(shí)現(xiàn)這種對(duì)接,必須要增強(qiáng)對(duì)各種類型數(shù)據(jù)進(jìn)行測(cè)度與描述的能力,否則大數(shù)據(jù)分析就沒有全面牢固的基礎(chǔ)。如果說傳統(tǒng)的基于樣本數(shù)據(jù)的統(tǒng)計(jì)分析側(cè)重于推斷,那么基于大數(shù)據(jù)的統(tǒng)計(jì)分析需要更加關(guān)注描述。
(五)需要轉(zhuǎn)變抽樣調(diào)查的功能
對(duì)于傳統(tǒng)的數(shù)據(jù)收集而言,抽樣調(diào)查是最重要的方式。盡管樣本只是總體中的很小一部分,但由于依據(jù)科學(xué)的抽樣理論,科學(xué)設(shè)計(jì)的抽樣調(diào)查能夠確保數(shù)據(jù)的精確度和可靠性。但抽樣調(diào)查畢竟存在著信息量有限、不可連續(xù)擴(kuò)充、前期準(zhǔn)備工作要求高等缺陷,很難滿足日益增長(zhǎng)的數(shù)據(jù)需求?,F(xiàn)在有了大數(shù)據(jù),我們應(yīng)該利用一切可以利用的、盡量多的數(shù)據(jù)來進(jìn)行分析而不是僅局限于樣本數(shù)據(jù)。但這是否意味著抽樣調(diào)查可以退出歷史舞臺(tái)呢? 筆者認(rèn)為還為時(shí)過早,在信息化、數(shù)字化、物聯(lián)網(wǎng)還不能全覆蓋的情況下,仍然還有很多數(shù)據(jù)信息需要通過抽樣調(diào)查的方式去獲取。與此同時(shí),盡管我們可以對(duì)大數(shù)據(jù)進(jìn)行全體分析,但考慮到成本與效率因素,在很多情況下抽樣分析仍然是不錯(cuò)的或明智的選擇。當(dāng)然,抽樣調(diào)查也要適當(dāng)轉(zhuǎn)變其功能以便進(jìn)一步拓展其應(yīng)用空間: 一是可以把抽樣調(diào)查獲得的數(shù)據(jù)作為大數(shù)據(jù)分析的對(duì)照基礎(chǔ)與驗(yàn)證依據(jù); 二是可以把抽樣調(diào)查作為數(shù)據(jù)挖掘、快速進(jìn)行探測(cè)性分析的工具——從混雜的數(shù)據(jù)中尋找規(guī)律或關(guān)系的線索。
(六)需要?dú)w納推斷法與演繹推理法并用
哲人培根說過“知識(shí)就是力量”。統(tǒng)計(jì)研究的任務(wù)就是為了發(fā)現(xiàn)新的知識(shí),歸納法則是發(fā)現(xiàn)新知識(shí)的基本方法。因此,歸納推斷法成為最主要的統(tǒng)計(jì)研究方法,使得我們能夠從足夠多的個(gè)體信息中歸納出關(guān)于總體的特征。當(dāng)然,歸納推斷的依據(jù)通常是樣本數(shù)據(jù),即在歸納出樣本特征的基礎(chǔ)上再推斷總體。對(duì)于大數(shù)據(jù),我們依然要從中去發(fā)現(xiàn)新的知識(shí),依然要通過具體的個(gè)體信息去歸納出一般的總體特征,因此歸納法依然是大數(shù)據(jù)分析的主要方法。正如C.R.勞指出: “‘從數(shù)據(jù)中提取一切信息’或者‘歸納和揭示’作為統(tǒng)計(jì)分析的目的一直沒有改變。”但是,大數(shù)據(jù)是一個(gè)信息寶庫(kù),光重視一般特征的歸納與概括是不夠的,還需要分析研究子類信息乃至個(gè)體信息,以及某些特殊的、異常的信息———或許它(們)代表著一種新生事物或未來的發(fā)展方向,還需要通過已掌握的分布特征和相關(guān)知識(shí)與經(jīng)驗(yàn)去推理分析其他更多、更具體的規(guī)律,去發(fā)現(xiàn)更深層次的關(guān)聯(lián)關(guān)系,去對(duì)某些結(jié)論做出判斷,這就需要運(yùn)用演繹推理法。演繹法可以幫助我們充分利用已有的知識(shí)去認(rèn)識(shí)更具體、細(xì)小的特征,形成更多有用的結(jié)論。只要?dú)w納法與演繹法結(jié)合得好,我們就既可以從大數(shù)據(jù)的偶然性中發(fā)現(xiàn)必然性,又可以利用全面數(shù)據(jù)的必然性去觀察偶然性、認(rèn)識(shí)偶然性、甚至利用偶然性,從而提高駕馭偶然性的能力。
(七)需要相關(guān)分析與因果分析并重
《大數(shù)據(jù)時(shí)代》認(rèn)為,我們只須從大數(shù)據(jù)中知道“是什么”就夠了,沒必要知道“為什么”,并且指出“通過給我們找到一個(gè)現(xiàn)象的良好的關(guān)聯(lián)物,相關(guān)關(guān)系可以幫助我們捕捉現(xiàn)在和預(yù)測(cè)未來”以及“建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測(cè)是大數(shù)據(jù)的核心”。毫無疑問,從超大量數(shù)據(jù)中發(fā)現(xiàn)各種真實(shí)存在的相關(guān)關(guān)系,是人們認(rèn)識(shí)和掌控事物、繼而做出預(yù)測(cè)判斷的重要途徑,而大數(shù)據(jù)時(shí)代新的分析工具和思路可以讓我們發(fā)現(xiàn)很多以前難以發(fā)現(xiàn)或不曾注意的事物之間的聯(lián)系,因此大力開展相關(guān)分析是大數(shù)據(jù)時(shí)代的重要任務(wù)。但是,我們僅僅停留于知道“是什么”是不夠的,還必須知道“為什么”,正所謂“既要知其然,更要知其所以然”,只有這樣才能更好地理解“是什么”——為什么需要把手電筒與蛋撻放在一起。只有知道原因、背景的數(shù)據(jù)才是真正的數(shù)據(jù)。因此探求“是什么”背后的原因始終是人類探索世界的動(dòng)力,因果分析是人類永恒的使命。哲學(xué)家德謨克利特早就指出: “與其做波斯國(guó)王,還不如找到一種因果關(guān)系。”如果我們只知道相關(guān)關(guān)系而不知道因果關(guān)系,那么數(shù)據(jù)分析的深度只有一半,一旦出現(xiàn)問題或疑問就無從下手。而如果我們知道了因果關(guān)系,就可以更好地利用相關(guān)關(guān)系,就可以更好地掌握預(yù)測(cè)未來的主動(dòng)權(quán),就可以幫助我們更科學(xué)地進(jìn)行決策。當(dāng)然,因果分析是困難的,正因?yàn)槔щy,所以要以相關(guān)分析為基礎(chǔ),要更進(jìn)一步利用好大數(shù)據(jù)。相關(guān)分析與因果分析不是互相對(duì)立的,而是互補(bǔ)的,兩者必須并重。