在這樣的情況下,我們有必要先對建模的基本概念進(jìn)行闡述,這樣我們才能知道對于數(shù)據(jù)的處理應(yīng)該聚焦在什么地方。首先,我們在進(jìn)行有監(jiān)督學(xué)習(xí)的時候,我們往往會在方程的兩邊進(jìn)行判斷。而方程的左邊我們叫因變量,或dependent variable,是一個人在之前是否有過還貸記錄,也就是我們所謂的好壞標(biāo)簽,而另外一邊是描述這個人各種各樣的信息,我們叫做自變量,也就是independent variable。
當(dāng)我們做了這樣的定義以后,對于數(shù)據(jù)的處理就比較清晰了。我們或者要聚焦于對因變量進(jìn)行處理,或者聚焦對自變量進(jìn)行處理。
我們先從對于因變量的處理開始,大家可能都知道一個征信公司到底能做的多好,他的數(shù)據(jù)量有多大是至關(guān)重要,而很多人遇到的瓶頸問題就是,他們很難搜集到各種企業(yè)和個人進(jìn)行還貸的歷史記錄,很少有企業(yè)能夠完成因變量大規(guī)模積累的工作。
這一項工作,在美國如果我們完全不需要人工智能或者機器學(xué)習(xí)的介入,最傳統(tǒng)解決辦法我們叫reject inference(拒絕推斷)。也就是,當(dāng)我在這里沒有辦法在自己的場景當(dāng)中獲取其他人的好壞標(biāo)簽的時候,我們往往會通過其他的征信局或者其他的放貸機構(gòu),進(jìn)行交換或者購買好壞標(biāo)簽的形式來獲得。在中國初創(chuàng)征信壞境中,這樣的方式十分困難,因為大多數(shù)機構(gòu)都想獲得別人的而不愿意分享自己的。所以從這個角度來講,指望通過reject inference,通過別人的借貸來獲得信息就比較困難。
那些在機器學(xué)習(xí)當(dāng)中,我們有什么解決方法呢?有兩種:self-training and transdurant (SVM)。當(dāng)我們明確知道有一些是好的和有一些人是壞的前提下,通過一個分類器對其他未知的變量的進(jìn)行處理的過程中,能夠通過一些自適應(yīng)的學(xué)習(xí)方法把在未知的人群中把有明顯傾向的人分成好的和壞的。