“忽如一夜春風(fēng)來(lái),千樹(shù)萬(wàn)樹(shù)梨花開(kāi)”,似乎在一夜之間,大數(shù)據(jù)就紅遍了南北半球,,大數(shù)據(jù)被神化得無(wú)處不在,無(wú)所不包,無(wú)所不能。這里面有認(rèn)識(shí)上的原因,也有故意忽悠的成份。筆者以為,越是在熱得發(fā)燙的時(shí)候,越是需要有人在旁邊吹吹冷風(fēng)。在這里談大數(shù)據(jù)的十大局限性,并非要否定其價(jià)值。相反,只有我們充分認(rèn)識(shí)了大數(shù)據(jù)的特點(diǎn)和優(yōu)劣勢(shì),才能更加有效地對(duì)其進(jìn)行采集、加工、應(yīng)用,充分挖掘和發(fā)揮其價(jià)值。
1、數(shù)據(jù)噪聲:與生俱來(lái)的不和諧
大數(shù)據(jù)之所以為大數(shù)據(jù),首先是因?yàn)槠鋽?shù)據(jù)體量巨大。然而,在這海量的數(shù)據(jù)中,并非所有的數(shù)據(jù)都是有用的,大多數(shù)時(shí)候,有用的數(shù)據(jù)甚至只是其中的很小一部分。隨著數(shù)據(jù)量的不斷增加,無(wú)意義的冗余、垃圾數(shù)據(jù)也會(huì)越來(lái)越多,而且其增長(zhǎng)的速度比數(shù)據(jù)信息更快。這樣一來(lái),我們尋求的重要數(shù)據(jù)信息或客觀真理往往會(huì)被龐大數(shù)據(jù)所帶來(lái)的噪聲所淹沒(méi),甚至被引入歧途和陷阱,得出錯(cuò)誤的結(jié)論。
2、真實(shí)性:不得不接受的虛假
“引領(lǐng)我們進(jìn)入困局的并不是我們不知道的事物,而是我們知道、但不那么真實(shí)的事物。”真實(shí)性是一切數(shù)據(jù)價(jià)值的基礎(chǔ),然而這同時(shí)也是大數(shù)據(jù)的一大先天性缺陷。
網(wǎng)絡(luò)是大數(shù)據(jù)最重要的來(lái)源之一,而網(wǎng)絡(luò)本身就充斥著大量的虛假信息。例如,網(wǎng)絡(luò)數(shù)據(jù)中存在著大量的虛假個(gè)人注冊(cè)信息、假賬號(hào)、假粉絲、假交易、灌水貼及虛假的意思表示等。這種失真是由網(wǎng)絡(luò)本身的特性決定的,比如說(shuō),絕大多數(shù)社交網(wǎng)站很難也不會(huì)對(duì)會(huì)員注冊(cè)信息的真實(shí)性進(jìn)行全面核查,電商平臺(tái)也無(wú)法控制一人注冊(cè)多賬號(hào),或賬號(hào)與實(shí)際消費(fèi)個(gè)體的非對(duì)應(yīng)關(guān)系(想想你家有沒(méi)有共用一個(gè)寬帶或電商賬號(hào)的情況)。
除了網(wǎng)絡(luò)數(shù)據(jù),即便是通過(guò)原始方法采集的個(gè)人信息數(shù)據(jù)也無(wú)法保障其真實(shí)、準(zhǔn)確。就拿電信運(yùn)營(yíng)商來(lái)說(shuō),即便推行了實(shí)名制,數(shù)據(jù)質(zhì)量與期望仍有相當(dāng)差距。
可以預(yù)見(jiàn),在相當(dāng)長(zhǎng)的時(shí)間內(nèi),即使最優(yōu)秀的數(shù)據(jù)科學(xué)家、最先進(jìn)的數(shù)據(jù)處理方法也無(wú)法消除或修正某些數(shù)據(jù)固有的錯(cuò)誤和不足,對(duì)大數(shù)據(jù)真實(shí)性的追求無(wú)疑是擺在我們面前的又一挑戰(zhàn)。
3、代表性:永不可能的全樣本
邁爾·舍恩伯格在《大數(shù)據(jù)時(shí)代》一書中闡述的一個(gè)核心觀點(diǎn)便是,大數(shù)據(jù)是全樣本,因此不再依賴隨機(jī)取樣。筆者認(rèn)為,這種觀點(diǎn)是錯(cuò)誤的。
大數(shù)據(jù)來(lái)源大致可以分為兩類,一類來(lái)自于物理世界的科學(xué)數(shù)據(jù),如實(shí)驗(yàn)數(shù)據(jù)、傳感數(shù)據(jù)、觀測(cè)數(shù)據(jù)等;另一類則來(lái)自于人類社會(huì)活動(dòng),主要是互聯(lián)網(wǎng)數(shù)據(jù),如社交關(guān)系、商品交易、行為軌跡等個(gè)人信息。然而,這兩類數(shù)據(jù)的產(chǎn)生、收集都存在很大的盲區(qū)和局限性。例如:很多人在網(wǎng)上訂餐或消費(fèi)的時(shí)候往往會(huì)參考其他人的推薦和點(diǎn)評(píng),但經(jīng)常在消費(fèi)以后發(fā)現(xiàn)并不如意。撇開(kāi)個(gè)人口味和刷評(píng)的因素,還有一個(gè)重要原因在于,網(wǎng)上點(diǎn)評(píng)的人并不具備足夠的代表性。喜歡上網(wǎng)的本身就只是消費(fèi)人群中的一部分,上網(wǎng)消費(fèi)同時(shí)又喜歡點(diǎn)評(píng)的人更只是其中的一小部分,所以,由帶有明顯傾向的小眾來(lái)代表整個(gè)群體明顯是錯(cuò)誤的。
無(wú)論科學(xué)技術(shù)如何發(fā)達(dá),來(lái)自于物理世界和網(wǎng)絡(luò)社會(huì)的大數(shù)據(jù)永遠(yuǎn)都不可能覆蓋整個(gè)自然界和人類社會(huì);如果再考慮宗教、法律、倫理、道德上的諸多限制,那么大數(shù)據(jù)就更不可能成為“全樣本”了。而且,被遺漏的那部分?jǐn)?shù)據(jù)往往并不是隨機(jī)偏差,而是系統(tǒng)偏差,在統(tǒng)計(jì)分析時(shí)不能不考慮。也正因?yàn)槿绱耍鐣?huì)學(xué)家對(duì)大數(shù)據(jù)的代表性總是保持著一份可貴的疑慮和審慎,在許多領(lǐng)域仍然堅(jiān)持用傳統(tǒng)的抽樣方法而不是大數(shù)據(jù)來(lái)進(jìn)行社會(huì)研究。
4、完整性:廣度與深度的缺失
大數(shù)據(jù)的完整性不足主要是指單個(gè)組織所能獲取的數(shù)據(jù)體量雖然巨大,但所包含的實(shí)際信息卻十分有限,以致難以以此為基礎(chǔ)進(jìn)行復(fù)雜的邏輯運(yùn)算或全面描述。這種不完整主要包括信息維度(決定信息廣度)的缺失和維度信息(決定信息深度)的缺失。
舉例而言,電信運(yùn)營(yíng)商由于把控著數(shù)據(jù)管道,從而可以較全面地掌握用戶的上網(wǎng)信息,有著較好的信息廣度,但其掌握的信息深度卻不夠。運(yùn)營(yíng)商可以清楚地知道用戶在什么時(shí)間、什么地點(diǎn)、以什么終端、什么網(wǎng)絡(luò)訪問(wèn)了京東、亞馬遜、天貓等電商,瀏覽了何種商品,停留了多長(zhǎng)時(shí)間等(信息廣度充分),但卻不能掌握用戶是否在某電商平臺(tái)上購(gòu)買了商品、購(gòu)買了何種商品、參與了什么促銷活動(dòng)、以什么方式付款、支付了多少款額等(信息深度不足)。很顯然,京東對(duì)用戶在自己商城的瀏覽、消費(fèi)行為了如指掌(信息深度充分),但它卻無(wú)法了解用戶的其他互聯(lián)網(wǎng)行為及在其他電商平臺(tái)的消費(fèi)行為(信息廣度不足)。