文/中國(guó)人民銀行征信中心博士后 劉新海、Turbo Financial Group聯(lián)合創(chuàng)始人、首席風(fēng)險(xiǎn)官 顧凌云、中國(guó)聯(lián)通網(wǎng)絡(luò)技術(shù)研究院高級(jí)工程師 丁偉
作為一家創(chuàng)新型的科技金融公司,ZestFinance自創(chuàng)立以來(lái),由于其獨(dú)特的商業(yè)理念而不斷受到投資界和互聯(lián)網(wǎng)金融領(lǐng)域的矚目。于2013年獲得全球第三方支付平臺(tái)PayPal聯(lián)合創(chuàng)始人、美國(guó)知名投資人彼得·泰爾(Peter Thiel)2000萬(wàn)美元的投資。ZestFinance認(rèn)為,它的使命是為每一個(gè)人創(chuàng)造公平而且透明的信用信息。ZestFinance最初的服務(wù)對(duì)象是只能使用高利貸的人群(稱為借貸日貸款人群),通過(guò)大數(shù)據(jù)挖掘出他們的信用信息,幫助他們享受正常的金融服務(wù)。ZestFinance假定每一個(gè)消費(fèi)者都是“好”人,希望通過(guò)搜集證據(jù),證明信貸信息不完整人群的真正的信用狀況,進(jìn)而幫助他們實(shí)現(xiàn)享受正常金融服務(wù)的權(quán)利。
和傳統(tǒng)征信相同,ZestFinance公司大數(shù)據(jù)征信對(duì)消費(fèi)者的信用評(píng)估也是基于兩個(gè)基本面的信息:消費(fèi)者的還款能力和消費(fèi)者的還款意愿。所不同的是,傳統(tǒng)征信中,數(shù)據(jù)依賴于銀行信貸數(shù)據(jù),而大數(shù)據(jù)征信的數(shù)據(jù)并不僅僅包括傳統(tǒng)的信貸數(shù)據(jù),同時(shí)也包括了與消費(fèi)者還款能力、還款意愿相關(guān)的一些描述性風(fēng)險(xiǎn)特征,這些相關(guān)性描述風(fēng)險(xiǎn)特征的抽取與篩選是ZestFinance的技術(shù)核心(如圖一)。相比于傳統(tǒng)征信數(shù)據(jù)的強(qiáng)相關(guān)性,這些大數(shù)據(jù)征信的數(shù)據(jù)和消費(fèi)者的信用狀況相關(guān)性較弱,ZestFinance就利用大數(shù)據(jù)技術(shù)搜集更多的數(shù)據(jù)維度來(lái)加強(qiáng)這些弱相關(guān)數(shù)據(jù)的描述能力。這樣就使大數(shù)據(jù)征信不依賴于傳統(tǒng)信貸數(shù)據(jù),可以對(duì)傳統(tǒng)征信無(wú)法服務(wù)的人群進(jìn)行征信,實(shí)現(xiàn)對(duì)整個(gè)消費(fèi)者人群的覆蓋。
圖一 大數(shù)據(jù)征信視角和傳統(tǒng)征信視角的比較
優(yōu)于銀行的大數(shù)據(jù)挖掘技術(shù)
ZestFiance的優(yōu)勢(shì)在于其強(qiáng)大的數(shù)據(jù)挖掘能力,能開發(fā)出新穎的信用評(píng)估模型,從大數(shù)據(jù)中挖掘出更多不易被發(fā)現(xiàn)的消費(fèi)者信用信息。
不同的應(yīng)用對(duì)大數(shù)據(jù)有著不同的理解,目前也沒(méi)有一個(gè)統(tǒng)一的概念。ZestFinance的創(chuàng)始人和首席執(zhí)行官梅里爾(Douglas C.Merill)認(rèn)為“數(shù)據(jù)多”并不是“大數(shù)據(jù)”,能夠利用IT技術(shù)將碎片化的信息整合起來(lái)才能形成真正有用的大數(shù)據(jù)。這種對(duì)大數(shù)據(jù)的理解特別適用于征信業(yè),因?yàn)檎餍诺幕具^(guò)程也是將分散于不同信貸機(jī)構(gòu)看似用處不大的局部信息整合成為可以完整描述消費(fèi)者信用狀況的全局信息。
值得指出的是,ZestFinance雖然利用大數(shù)據(jù)技術(shù)進(jìn)行征信,但是主要利用的還是結(jié)構(gòu)化的大數(shù)據(jù),對(duì)于復(fù)雜的大數(shù)據(jù)類型,例如文本數(shù)據(jù)和社交網(wǎng)絡(luò)數(shù)據(jù),利用得比較少,主要原因是由于這些復(fù)雜的大數(shù)據(jù)和ZestFinance所服務(wù)的消費(fèi)者的信用風(fēng)險(xiǎn)相關(guān)性太弱了。這種現(xiàn)象其實(shí)也被其他互聯(lián)網(wǎng)金融的征信實(shí)踐所驗(yàn)證,例如最大的互聯(lián)網(wǎng)P2P公司Lending Club最早從臉譜(Facebook)平臺(tái)登陸信貸市場(chǎng),希望通過(guò)對(duì)社交網(wǎng)絡(luò)的數(shù)據(jù)進(jìn)行信貸審批,結(jié)果效果很差,難以為繼,最后只好回歸傳統(tǒng)的信貸手段發(fā)展。
ZestFinance的核心競(jìng)爭(zhēng)力在于其強(qiáng)大的數(shù)據(jù)挖掘能力和模型開發(fā)能力,將機(jī)器學(xué)習(xí)領(lǐng)域比較成熟的技術(shù)創(chuàng)造性地用于傳統(tǒng)的信貸風(fēng)險(xiǎn)管理領(lǐng)域。
關(guān)鍵在于多維的數(shù)據(jù)和算法
ZestFinane的核心業(yè)務(wù)是消費(fèi)信貸審批,主要客戶是次級(jí)貸消費(fèi)者,主要的競(jìng)爭(zhēng)對(duì)手是銀行或典當(dāng)行。ZestFinance的核心競(jìng)爭(zhēng)力在于其強(qiáng)大的數(shù)據(jù)挖掘能力和模型開發(fā)能力,將機(jī)器學(xué)習(xí)領(lǐng)域比較成熟的技術(shù)創(chuàng)造性地用于傳統(tǒng)的信貸風(fēng)險(xiǎn)管理領(lǐng)域。
傳統(tǒng)的信用評(píng)分模型一般擁有500個(gè)數(shù)據(jù)項(xiàng),從中提取50個(gè)變量,利用一個(gè)預(yù)測(cè)分析模型做出信用風(fēng)險(xiǎn)量化評(píng)估。而在ZestFinance的新模型中,往往要用到3500個(gè)數(shù)據(jù)項(xiàng),從中提取70,000個(gè)變量,利用10個(gè)預(yù)測(cè)分析模型進(jìn)行集成學(xué)習(xí)或者多角度學(xué)習(xí),進(jìn)而得到最終的消費(fèi)者信用評(píng)分。
如圖二所示,ZestFinance的數(shù)據(jù)源是大數(shù)據(jù),可以生成數(shù)以萬(wàn)計(jì)的風(fēng)險(xiǎn)變量,然后分別輸入不同的預(yù)測(cè)模型中,例如欺詐模型、身份驗(yàn)證模型、預(yù)付能力模型、還款能力模型、還款意愿模型以及穩(wěn)定性模型等。每一個(gè)子模型都從不同的角度預(yù)測(cè)個(gè)人消費(fèi)者的信用狀況,克服了傳統(tǒng)信用評(píng)估中一個(gè)模型考慮因素的局限性,使預(yù)測(cè)更為細(xì)致。
機(jī)器學(xué)習(xí)方法在生產(chǎn)、科研和生活中有著廣泛應(yīng)用,而集成學(xué)習(xí)則是機(jī)器學(xué)習(xí)最近的熱門研究方向。集成學(xué)習(xí)是使用一系列算法模型進(jìn)行分析預(yù)測(cè),并使用某種規(guī)則把各個(gè)模型分析結(jié)果進(jìn)行整合從而獲得比單個(gè)算法模型更好的預(yù)測(cè)效果的一種機(jī)器學(xué)習(xí)方法。