大數(shù)據(jù)四“V”
關(guān)于大數(shù)據(jù)的定義,現(xiàn)在談得最多的就是所謂的四個“V”,也有五個、六個“V”之說。IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)歸結(jié)的四個“V”中,第一個就是它的實際規(guī)模。從早先的KB,到TB,一直到后來的PB、EB,數(shù)據(jù)的量在不斷地增加,這是一個表面的現(xiàn)象。
第二個“V”是多樣的數(shù)據(jù)類型,尤其是里面包涵了大量的非結(jié)構(gòu)化的數(shù)據(jù)。什么是非結(jié)構(gòu)化的數(shù)據(jù)?比如在網(wǎng)上發(fā)一條微信,這句話本身沒法拿來做統(tǒng)計或計量分析,但是可以在里面提取結(jié)構(gòu)化數(shù)據(jù)進行分析。這樣的數(shù)據(jù)反而占數(shù)據(jù)量很重要的一部分。
第三個“V”講的是價值,有兩點:一個是價值大,大數(shù)據(jù)帶來各種可能性;另外一個比較重要的是,它雖然量很大、價值也很大,但是密度很低。在互聯(lián)網(wǎng)上抓取的1GB的大數(shù)據(jù),里面有用的可能只有千分之一、萬分之一,或者百萬分之一,所以,挖掘和分析比原來更加困難。
第四個“V”就是動態(tài)數(shù)據(jù)的快速處理。在這方面云計算的貢獻比較大,這里比較核心的,也是大數(shù)據(jù)將來能不能從“可能”到“可行”轉(zhuǎn)變的兩個要素,即:非結(jié)構(gòu)化和低密度。這兩者其實互相相關(guān),如果技術(shù)上能解決怎么分析非結(jié)構(gòu)化數(shù)據(jù)、怎么從低密度價值里面提取數(shù)據(jù)的價值,那么大數(shù)據(jù)的應(yīng)用可能就會有一個飛躍的增長。所以,我覺得非結(jié)構(gòu)化和低密度可能是大數(shù)據(jù)的核心東西。
那么大數(shù)據(jù)是什么呢?如果管中窺豹,從點上去看它,首先,大數(shù)據(jù)的“大”肯定是一個相對的概念,它不是一個絕對的概念。另外,它更不是一個學術(shù)性的概念,而且這里面需要關(guān)注的就是非結(jié)構(gòu)化的數(shù)據(jù)可能占大數(shù)據(jù)的主要部分,尤其是來自于網(wǎng)民的交互式的數(shù)據(jù)可能是未來大數(shù)據(jù)的主體之一。
從分析方法來看,過去得到數(shù)據(jù)或者統(tǒng)計的方法是抽樣,然后利用概率論和隨機過程等數(shù)學的方法來推理,從而達到目的,推測得出全部數(shù)據(jù)?,F(xiàn)在有這種可能性,如果成本降得比較低的話,就可以獲得全部的數(shù)據(jù)。
對大數(shù)據(jù)的質(zhì)疑
當然,對大數(shù)據(jù)也有非常多的質(zhì)疑。首先,有人提出“大數(shù)據(jù)陷阱”。數(shù)據(jù)是不是越多越好?實際上,對任何企業(yè)或個體來說,數(shù)據(jù)肯定不是越多越好,肯定有一個最優(yōu)的數(shù)據(jù)量,因為要分析大量的數(shù)據(jù),方法是不是可能?分析成本有多高?這個大量的數(shù)據(jù)包含的價值有多大?所以,對每一個企業(yè)都有一個最優(yōu)的數(shù)據(jù)量,就是從拿到的數(shù)據(jù)范圍里面獲得的價值和為了獲得這些價值而付出的分析成本,它們兩個接近相等的時候,可能就是最優(yōu)數(shù)據(jù)量。
再就是,MIT的凱特·克勞福德(Kate Crawford)教授提出“大數(shù)據(jù)中存在偏見和盲區(qū)”:數(shù)據(jù)在生成或采集的過程中并不都是平等的,大數(shù)據(jù)集存在“信號問題”,即某些民眾和社區(qū)被忽略或未得到充分體現(xiàn)。這個比較典型,比如說,國內(nèi)現(xiàn)在有6億多網(wǎng)民,有時候不能用6億的數(shù)據(jù)去判斷13億人的狀態(tài),因為這個過程不是靠抽樣得到的。
第三個問題就是“泄露個人隱私成為日益嚴重的擔憂”。在我們不知情時,數(shù)據(jù)就被人拿走了,這是很可怕的事。