所謂有效性評(píng)價(jià)指的是真實(shí)性,即誤差大小。這里又有兩個(gè)相關(guān)的概念: 準(zhǔn)確性與精確性。準(zhǔn)確性一般是指一個(gè)觀察值與真實(shí)值的吻合程度,通常情況下是無法做出測(cè)度的; 而精確性一般指樣本統(tǒng)計(jì)量分布的離散程度,以抽樣分布的標(biāo)準(zhǔn)差來衡量。很顯然,精確性是針對(duì)樣本數(shù)據(jù)而言的。也就是說樣本數(shù)據(jù)既有精確性問題又有準(zhǔn)確性問題,樣本數(shù)據(jù)中的誤差既包括抽樣誤差也可能包括非抽樣誤差。抽樣誤差可以基于抽樣分布理論進(jìn)行計(jì)算和控制,而非抽樣誤差只能通過各種方式加以識(shí)別或判斷,但多數(shù)情況下由于樣本量不是太大而可以得到較好的防范。但對(duì)于大數(shù)據(jù),由于它是全體數(shù)據(jù),因而不再有抽樣誤差問題,只有非抽樣誤差問題,也就是說大數(shù)據(jù)的真實(shí)性只表現(xiàn)為準(zhǔn)確性而非精確性。然而由于大數(shù)據(jù)是超大量數(shù)據(jù),再加上混雜性與多樣性,因此其非抽樣誤差很難防范與控制,這就使得準(zhǔn)確性評(píng)價(jià)問題變得更為困難———如何測(cè)度? 標(biāo)準(zhǔn)怎樣?
三、積極應(yīng)對(duì)大數(shù)據(jù)
面對(duì)大數(shù)據(jù),我們唯有積極應(yīng)對(duì),別無選擇。如何應(yīng)對(duì),需要考慮以下幾個(gè)方面:
(一)需要改變總體、個(gè)體乃至樣本的定義方式
傳統(tǒng)的統(tǒng)計(jì)分析,是先有總體,再有數(shù)據(jù),即必須先確定總體范圍和個(gè)體單位,再收集個(gè)體數(shù)據(jù),分析總體。但對(duì)大數(shù)據(jù)來說,情況完全不同了,是先有數(shù)據(jù),再有總體。從某種意義上說,大數(shù)據(jù)的產(chǎn)生系統(tǒng)多數(shù)是非總體式的,即無事先定義的目標(biāo)總體,只有與各個(gè)時(shí)點(diǎn)相對(duì)應(yīng)的事后總體,原因就在于個(gè)體是不確定的,是變化著的,是無法事先編制名錄庫的,這與傳統(tǒng)的總體與個(gè)體有很大的不同。更為復(fù)雜的是,事后個(gè)體的識(shí)別也很困難,因?yàn)橥粋€(gè)個(gè)體可能有多個(gè)不同的網(wǎng)絡(luò)符號(hào)或稱謂,而不同網(wǎng)絡(luò)系統(tǒng)的相同符號(hào)(稱謂)也未必就是同一個(gè)個(gè)體,而且還經(jīng)常存在個(gè)體異位的情況(即某一個(gè)體利用另一個(gè)體的符號(hào)完成某種行為),因此我們對(duì)于大數(shù)據(jù)往往是只見“數(shù)據(jù)”的外形而不見“個(gè)體”的真容。但對(duì)大數(shù)據(jù)的分析,仍然有一個(gè)總體口徑問題,依然需要識(shí)別個(gè)體身份。這就需要我們改變總體與個(gè)體的定義方式——盡管它們的內(nèi)涵沒有變。與此對(duì)應(yīng),如果要從大數(shù)據(jù)庫中提取樣本數(shù)據(jù),那么樣本的定義方式也需要改變。當(dāng)然,考慮到大數(shù)據(jù)的流動(dòng)變化性,任何時(shí)點(diǎn)的總體都可以被理解為一個(gè)截面樣本。
(二)需要改變對(duì)不確定性的認(rèn)識(shí)
眾所周知,統(tǒng)計(jì)學(xué)是為了認(rèn)識(shí)和研究事物的不確定性而產(chǎn)生的,因?yàn)闊o論是自然現(xiàn)象還是社會(huì)經(jīng)濟(jì)現(xiàn)象,都時(shí)時(shí)處處充滿著因個(gè)體的差異性而引起的不確定性,因?yàn)樵诖蠖鄶?shù)情況下我們?nèi)狈ψ銐虻男畔⒒蛉狈ψ銐虻闹R(shí)去利用有效信息,而人們總是期望通過量化事物的不確定性去發(fā)現(xiàn)規(guī)律、揭示真相,認(rèn)識(shí)不確定性背后的必然性。要研究不確定性就需要收集數(shù)據(jù),在只能進(jìn)行抽樣觀測(cè)的情況下,這種不確定性就表現(xiàn)為如何獲得樣本、如何推斷總體(包括估計(jì)與檢驗(yàn))和如何構(gòu)建模型等方面。對(duì)于大數(shù)據(jù),仍然存在著個(gè)體的差異性,區(qū)別只在于它包括了一定條件下的所有個(gè)體,而不是隨機(jī)獲得的一個(gè)樣本。這樣,大數(shù)據(jù)的不確定性就不再是樣本的獲取與總體的推斷,而是數(shù)據(jù)的來源、個(gè)體的識(shí)別、信息的量化、數(shù)據(jù)的分類、關(guān)聯(lián)物的選擇、節(jié)點(diǎn)的確定,以及結(jié)論的可能性判斷等方面??梢哉f,大數(shù)據(jù)的不確定性只來自于其來源的多樣性與混雜性,以及由于個(gè)體的可變性所引起的總體多變性,而不是同類個(gè)體之間的差異性——因?yàn)槲覀円呀?jīng)掌握了一定條件下的完全信息。
(三)需要建立新的數(shù)據(jù)梳理與分類方法
大數(shù)據(jù)的多樣性與混雜性,以及先有數(shù)據(jù)、后有總體的特點(diǎn),原有的數(shù)據(jù)梳理與分類方法將受到諸多的限制。傳統(tǒng)的數(shù)據(jù)梳理與分類是按照預(yù)先設(shè)定的方案進(jìn)行的,標(biāo)志與指標(biāo)的關(guān)系、分類標(biāo)識(shí)與分組規(guī)則等都是結(jié)構(gòu)化的,既是對(duì)有針對(duì)性地收集的數(shù)據(jù)的加工,也是統(tǒng)計(jì)分析的組成部分。但對(duì)于大數(shù)據(jù),由于新的網(wǎng)絡(luò)語言、新的信息內(nèi)容、新的數(shù)據(jù)表現(xiàn)形式不斷出現(xiàn),使得會(huì)產(chǎn)生哪些種類的信息、有哪些可以利用的分類標(biāo)識(shí)、不同標(biāo)識(shí)之間是什么關(guān)系、類與類之間的識(shí)別度有多大、信息與個(gè)體之間的對(duì)應(yīng)關(guān)系如何等,都無法事先加以嚴(yán)格設(shè)定或控制,往往需要事后進(jìn)行補(bǔ)充或完善。面對(duì)超大量的數(shù)據(jù),我們從何下手? 只能從數(shù)據(jù)本身入手,從觀察數(shù)據(jù)分布特征入手。這就需要采用不同的數(shù)據(jù)梳理與分類方法。否則,要想尋找到能有效開展數(shù)據(jù)分析的路徑是不可能的。因此根據(jù)大數(shù)據(jù)的特點(diǎn),創(chuàng)新與發(fā)展數(shù)據(jù)的梳理與分類方法,是有效開展大數(shù)據(jù)分析的重要前提。這里需要強(qiáng)調(diào)的是,能否建立起能自動(dòng)進(jìn)行初步的數(shù)據(jù)梳理與分類的簡(jiǎn)單模型? 因?yàn)閺募夹g(shù)上講,我們已經(jīng)具備了一定的對(duì)大數(shù)據(jù)進(jìn)行多次迭代建模的算法。