如果把單個模型比作一個決策者的話,集成學習的方法就相當于多個決策者共同進行一項決策。由于融合多種信息和綜合多種決策機制,經(jīng)過集成學習得到的分析預測要明顯優(yōu)于單一模型。不同角度的信息存在關聯(lián),各自包含互補信息、多角度學習的過程,相當于一個不斷搜集證據(jù)的過程,加強互補信息,進行信息融合。例如,兩個獨立的評分模型對利潤提升的能力分別是16.9%和9.4%,傳統(tǒng)信用評估中,第二個模型可能被棄用,但如果發(fā)現(xiàn)這兩個模型分別包含互補信息,將這兩個模型的結果進行融合,可以將利潤提高至38%。
這些多角度學習中每一個子模型也沒有采用傳統(tǒng)的邏輯回歸, 而是機器學習中的其它的預測模型(該模型的細節(jié)對于ZestFinance是核心機密)。ZestFinance的信用評估中沒有利用邏輯回歸模型的原因是大數(shù)據(jù)征信的數(shù)據(jù)比較零碎,而且變量過多,以及所抽取的風險變量分布不能滿足正態(tài)分布。
抓住信貸審批管理就能控制80%的風險
根據(jù)調(diào)查,80%左右的信貸風險來自信貸審批環(huán)節(jié),一旦消費者獲得信貸,后續(xù)的管理只能控制20%的風險,由此可見科學的信貸審批管理十分重要。開發(fā)高質(zhì)量的信貸審批評分模型,進行科學的審批風險管理,可以大幅降低壞賬率,并取得比較好的經(jīng)濟效益。雖然ZestFinance并未透漏其壞賬率,但在實際應用的過程中,和其競爭對手銀行或典當行的放貸者相比,還是取得了一些不錯的結果。
1.獲得貸款顧客的成本是競爭者的25%。根據(jù)JMP2012的行業(yè)報告,對于一個在線的借貸者來說,獲取一個顧客的平均花銷應該在250美元和500美元之間。2014年,通過ZestFinance的服務,獲得顧客的成本穩(wěn)定在100美元左右。
2.首次還貸違約率(First pay default, FPD)低于競爭者。從2012年初起,ZestFinance的首次還貸違約率還在不斷波動,有時高于第三個競爭對手,隨著模型的不斷改進,到2013年已基本穩(wěn)定,明顯低于三個競爭對手。
3.不斷提高客戶的投資回報率。ZestFinance最初的投資回報率在100%左右,隨著模型的不斷改進,目前的客戶投資回報率達到了150%以上。
4.投資回報率高于競爭對手。圖二展示了ZestFinance在不同時間和其競爭對手在投資回報率方面的比較,可以看出ZestFinance的投資回報率明顯高于行業(yè)標準和其競爭對手。
圖二 ZestFinance的投資回報率高于競爭對手
關于ZestFinance信用評估模型
ZestFiance的優(yōu)勢在于其強大的數(shù)據(jù)挖掘能力,開發(fā)出新穎的信用評估模型(見圖三),從大數(shù)據(jù)中挖掘出更多不易被發(fā)現(xiàn)的消費者信用信息。
當ZestFinance不斷地進行數(shù)據(jù)搜集和增加新數(shù)據(jù)源的同時,評分模型也在不斷更新。如表一所示,從2012年到目前,差不多每一個季度就會新推出一個新的信用評估模型。而且模型是以每一位不同的開發(fā)者命名,目前已經(jīng)有14個模型。ZestFinance評分模型的改進也提高了其信用風險評估水平。雖然這些新的模型仍然會遇到數(shù)據(jù)充足性和數(shù)據(jù)可得性的挑戰(zhàn),但是模型的持續(xù)改進還在進行中。
圖三 ZestFinance的信用評估模型解讀
ZestFinance最早從事的是信貸審批,僅有信貸審批評分模型,隨后不斷細化其評估模型來支持不斷推出新的信用風險業(yè)務。如表一所示,2013年第一季度推出了催收評分,2014年第二季度推出了市場營銷評分;2014年推出了汽車貸款和法律催收,目前已經(jīng)開發(fā)出八類信用評估模型,用于不同信用風險評估服務。
表一 ZestFinance信用評估模型
丟失數(shù)據(jù)(Missing data)指的是機器學習中某一些數(shù)據(jù)項因為種種原因造成了缺失,較多的丟失數(shù)據(jù)會給建模過程帶來挑戰(zhàn)。由于ZestFinance利用多維度的大數(shù)據(jù),所以丟失數(shù)據(jù)的現(xiàn)象更加突出。ZestFinance處理丟失數(shù)據(jù)也有其獨特之處。首先ZestFinance不斷改進其評分模型,增強其處理丟失數(shù)據(jù)的能力,最新的評分模型可以處理超過30%的丟失數(shù)據(jù)。其次,ZestFinance另辟蹊徑,充分利用丟失數(shù)據(jù)之間的關聯(lián)、和正常數(shù)據(jù)的交叉,探尋數(shù)據(jù)丟失的原因。通過這樣的深耕細作,獲得了一些有用的消費者信用信息。當然,這種做法要求使用于特定環(huán)境,要結合信貸業(yè)務,并對消費者的行為模式有深入的理解。