例如,互聯(lián)網(wǎng)金融以大數(shù)據(jù)計(jì)算為業(yè)務(wù)基礎(chǔ),其健康狀況就與這類偏誤的嚴(yán)重程度密不可分。 根據(jù)中國(guó)P2P網(wǎng)貸行業(yè)2014年度運(yùn)營(yíng)簡(jiǎn)報(bào)和2015年上半年的運(yùn)營(yíng)簡(jiǎn)報(bào),在圖一我們可以推算2006年到2004年間和2015年1-5月間月均新增問(wèn)題平臺(tái)數(shù),并與2015年6月新增問(wèn)題平臺(tái)數(shù)作比較
新增問(wèn)題平臺(tái)的大幅增加原因雖然有多方面,但是從數(shù)據(jù)分析方法的局限是不可忽視的原因。由于還沒(méi)有合法的數(shù)據(jù)共享機(jī)制,P2P平臺(tái)在甄別客戶質(zhì)量時(shí),往往只依靠自身渠道和從社交媒體等挖掘的數(shù)據(jù),并采用數(shù)據(jù)挖掘方法建立相應(yīng)建立模型。在數(shù)據(jù)分析中,不少P2P平臺(tái)往往疏于查考自身樣本的代表性、也忽略宏觀經(jīng)濟(jì)數(shù)據(jù)和其他微觀數(shù)據(jù)所包含的信息。由于互聯(lián)網(wǎng)金融公司出現(xiàn)時(shí)間短、又主要成長(zhǎng)于經(jīng)濟(jì)繁榮期,如果單單依賴有限的數(shù)據(jù)渠道,數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)過(guò)程對(duì)新常態(tài)下個(gè)體行為沒(méi)有足夠的認(rèn)識(shí),在經(jīng)濟(jì)下行時(shí)仍然根據(jù)歷史數(shù)據(jù)而低估逾期率,導(dǎo)致高估平臺(tái)健康狀況,最終不得不面對(duì)問(wèn)題平臺(tái)不斷增加的局面。
(二) 大數(shù)據(jù)和小數(shù)據(jù)齊頭并進(jìn)大勢(shì)所趨
大數(shù)據(jù)和小數(shù)據(jù)各有優(yōu)劣。簡(jiǎn)而言之,小數(shù)據(jù)通常不會(huì)假定該數(shù)據(jù)就是總體,因此收集數(shù)據(jù)前往往需要確定收集數(shù)據(jù)的目標(biāo)、根據(jù)該目標(biāo)設(shè)計(jì)的問(wèn)卷或者收集方法、確定抽樣框。在數(shù)據(jù)采集后,不同學(xué)者往往可以通過(guò)將新收集數(shù)據(jù)與不同數(shù)據(jù)的交叉驗(yàn)證,來(lái)評(píng)估數(shù)據(jù)的可信度。小數(shù)據(jù)在收集上有變量定義清晰、數(shù)據(jù)生成機(jī)制基本可控、檢驗(yàn)評(píng)估成本相對(duì)較低等優(yōu)點(diǎn),但是缺點(diǎn)是數(shù)據(jù)收集成本高,時(shí)間間隔長(zhǎng)、顆粒度較粗。
大數(shù)據(jù)的優(yōu)勢(shì)就包括數(shù)據(jù)體量大、收集時(shí)間短、數(shù)據(jù)類型豐富,顆粒度很細(xì)。但是,由于大數(shù)據(jù)往往是一些企業(yè)和機(jī)構(gòu)經(jīng)營(yíng)活動(dòng)的附帶產(chǎn)品,因此并不是通過(guò)精心論證的測(cè)度工具生成。另外,由于大數(shù)據(jù)的體量很大,交叉驗(yàn)證數(shù)據(jù)的可信度、不同學(xué)者采用相同數(shù)據(jù)獨(dú)立研究以檢驗(yàn)數(shù)據(jù)的前后一致性等工作難度較大。這些特點(diǎn)意味著大數(shù)據(jù)本身未必有科學(xué)研究要求的那樣準(zhǔn)確、可靠,在數(shù)據(jù)分析中就需要對(duì)大數(shù)據(jù)適合研究的問(wèn)題有較清晰的認(rèn)識(shí)。