這是有意思的問題。我想以“什么數(shù)據(jù)最重要、最容易建模”的說法來回答這個(gè)問題。
很多人認(rèn)為,外圍的行為數(shù)據(jù)能夠比較準(zhǔn)確地說明一個(gè)人的還貸能力,而事實(shí)上并不是這樣子的。從機(jī)器學(xué)習(xí)建模的角度來說,所有的數(shù)據(jù)或者說獨(dú)立變量可以分為三個(gè)部分:第一部分是核心金融數(shù)據(jù),如經(jīng)濟(jì)能力、經(jīng)濟(jì)行為是怎樣的,有沒有還錢等;第二是泛金融數(shù)據(jù),比如住在什么小區(qū),購物消費(fèi)記錄是怎樣;第三個(gè)才是社交數(shù)據(jù),比如網(wǎng)上瀏覽的鼠標(biāo)軌跡如何。
但是,這三類數(shù)據(jù)的重要性是完全不一樣的,核心金融數(shù)據(jù)的重要性遠(yuǎn)遠(yuǎn)強(qiáng)于后面二者,而第三類所謂的網(wǎng)上行為或者社交數(shù)據(jù)用來反欺詐或許有用,但用來判斷還貸能力是及其不靠譜的,所以說提問這個(gè)例子,會(huì)是眾多變量中放到模型去考慮的一個(gè),但絕對(duì)不可能因?yàn)檫@樣的情況而把償還能力拉低,或者判斷為你的信用狀況很差。
對(duì)個(gè)人建立數(shù)據(jù)肖像,是不是意味著對(duì)一個(gè)團(tuán)隊(duì)也可以建立數(shù)據(jù)肖像?這兩者的差異大嗎?
答案是肯定的。而個(gè)人征信和企業(yè)征信的差異,是在于當(dāng)各個(gè)不同的團(tuán)體產(chǎn)生后,數(shù)據(jù)的離散性,包括數(shù)據(jù)的可持續(xù)性都會(huì)是很有意思的問題,這些在建模過程中都會(huì)是不一樣的。