總體而言,當(dāng)前大數(shù)據(jù)風(fēng)控有效性欠佳的原因主要有以下幾個(gè)方面:
(一)數(shù)據(jù)的質(zhì)量問題
當(dāng)前大數(shù)據(jù)風(fēng)控的有效性欠佳,其首要原因就是數(shù)據(jù)的真實(shí)性不高,包括社交數(shù)據(jù)和交易數(shù)據(jù)兩個(gè)方面。
1.社交數(shù)據(jù)的真實(shí)性問題
美國(guó)lending club和facebook合作獲取社交數(shù)據(jù),在中國(guó)宜信也曾大費(fèi)周折的收集借款人的社交數(shù)據(jù),最后兩者得出的結(jié)論都是社交數(shù)據(jù)根本就不能用。美國(guó)很多大數(shù)據(jù)征信公司的信息錯(cuò)誤率高達(dá)50%,垃圾進(jìn)、垃圾出。
2.交易數(shù)據(jù)的真實(shí)性問題。
當(dāng)前許多電商平臺(tái)的刷單現(xiàn)象非常嚴(yán)重,這將導(dǎo)致交易數(shù)據(jù)的嚴(yán)重失真。隨著網(wǎng)購(gòu)的火爆,有關(guān)電商平臺(tái)“刷單”的報(bào)道屢見報(bào)端。
電商“刷單”有兩種方式,一種是商家找所謂的消費(fèi)者進(jìn)行“刷單”。賣家買快遞單號(hào),其收件人和寄件人與實(shí)際的買家、賣家不一致。
另一種是快遞公司發(fā)空包,但快遞公司并未完成配送,而幫助商家完成平臺(tái)上的物流信息。
(二)大數(shù)據(jù)風(fēng)控的理論有效性問題
從IT技術(shù)層面論證大數(shù)據(jù)風(fēng)控的實(shí)踐性案例已經(jīng)很多,但是在經(jīng)濟(jì)金融的理論層面,大數(shù)據(jù)風(fēng)控還面臨一些問題需要解決。
1.金融信用與社會(huì)信用的相關(guān)性不確定
目前大數(shù)據(jù)主要來源于互聯(lián)網(wǎng),而人們?cè)诰W(wǎng)絡(luò)中的表現(xiàn)并不能完全反映其真實(shí)的一面。相同的人群在不同場(chǎng)合呈現(xiàn)的特征是不一樣的,尤其是目前人們?cè)诰€上、線下割裂的狀態(tài),其行為方式往往會(huì)出現(xiàn)強(qiáng)烈的反差。
例如有些人不善交際,卻將自己做的美食展示在微博上,吸引大量關(guān)注,粉絲暴增。因此網(wǎng)絡(luò)并不能確切地證明某人的社交圈子,也就是說互聯(lián)網(wǎng)的數(shù)據(jù)很難還原用戶現(xiàn)實(shí)中的信息。
2.大數(shù)據(jù)對(duì)于“黑天鵝”事件的滯后性
在現(xiàn)實(shí)世界,總會(huì)出現(xiàn)不可預(yù)測(cè)的“黑天鵝”事件,一旦出現(xiàn)則有可能沖擊大數(shù)據(jù)風(fēng)控模型的基本假設(shè),進(jìn)而影響大數(shù)據(jù)風(fēng)控的有效性。大到美國(guó)的次貸危機(jī),小到個(gè)人意外事件的發(fā)生,在某種程度上大數(shù)據(jù)風(fēng)控是無法預(yù)測(cè)的,但這些事件的發(fā)生,對(duì)宏觀經(jīng)濟(jì)和微觀主體都會(huì)產(chǎn)生重大的影響。
例如,2008年美國(guó)次貸危機(jī)后產(chǎn)生了一種“策略性違約”行為——貸款主體本身有能力還款,但是其在房?jī)r(jià)遠(yuǎn)低于貸款總額的時(shí)候,重新購(gòu)買一套房子,并對(duì)之前的房貸斷供,貸款者可以此方法進(jìn)行“套利”。
雖然此類違約者會(huì)因此有不良信用記錄,但是這對(duì)信用報(bào)告的影響有限,因?yàn)槠渌膫鶆?wù)按期償還。而大數(shù)據(jù)對(duì)這種突變事件的預(yù)測(cè)能力則非常有限。
(三)大數(shù)據(jù)收集和使用的制度問題
在數(shù)據(jù)收集和使用的過程中也面臨著合法使用的問題。如何高效、適度地開發(fā)和使用大數(shù)據(jù),不僅僅是一個(gè)技術(shù)問題,也是一個(gè)社會(huì)問題,這些泄露的數(shù)據(jù)大量流入數(shù)據(jù)黑市,造成了用戶安全、企業(yè)安全甚至國(guó)家安全方面的連鎖反應(yīng)。數(shù)據(jù)的收集和使用在很多時(shí)候都沒有征得數(shù)據(jù)生產(chǎn)主體的同意,這導(dǎo)致了數(shù)據(jù)的濫用和隱私的泄露。
近年來,個(gè)人數(shù)據(jù)泄露事件頻頻發(fā)生,因個(gè)人數(shù)據(jù)泄露而造成損失的新聞屢見報(bào)端。獵豹移動(dòng)安全實(shí)驗(yàn)室發(fā)布的《2015年上半年移動(dòng)安全報(bào)告》顯示,截至2015年上半年,獵豹共監(jiān)測(cè)到496起數(shù)據(jù)泄露事件,影響超過544萬人。2015年10月19日,烏云網(wǎng)發(fā)布消息稱,網(wǎng)易的用戶數(shù)據(jù)庫(kù)疑似泄露。
圖2 2005-2014年國(guó)內(nèi)外數(shù)據(jù)泄密情況
資料來源:上海漢均信息技術(shù)有限公司《2005—2014年全球泄密事件分析報(bào)告》
數(shù)據(jù)安全問題也將越來越多的企業(yè)推向風(fēng)口浪尖。
上海漢均信息技術(shù)有限公司發(fā)布的《2005—2014年全球泄密事件分析報(bào)告》顯示,10年間,全球泄密事件中,我國(guó)泄密事件數(shù)量占比為58.5%,其中高頻發(fā)地域主要是東部沿海經(jīng)濟(jì)較發(fā)達(dá)、產(chǎn)業(yè)格局以高技術(shù)含量為主的一二線城市(如圖2)。
Verizon發(fā)布《2015年數(shù)據(jù)泄露調(diào)查報(bào)告》,報(bào)告覆蓋95個(gè)國(guó)家,其中有61個(gè)報(bào)告了問題,涉及79790個(gè)安全事件(Security Incident),超過2000個(gè)(2122個(gè))確認(rèn)數(shù)據(jù)泄露(Data Breach)。
三.提高大數(shù)據(jù)風(fēng)控有效性的路徑