實(shí)際上所有這些問(wèn)題,最后都會(huì)歸結(jié)為幾個(gè)不同的方面。在這里,我可以簡(jiǎn)單地介紹一下建立幾個(gè)好的模型的步驟:獲得數(shù)據(jù)之后,第一步是原始清洗——基于技術(shù)數(shù)據(jù);第二步是變量選??;第三步變量整合,第四步單一模型的建立;第五步,五多模型建立。每一步中都有許多細(xì)節(jié)的工作需要完成。
如果今天市場(chǎng)上有100家征信公司,那我可以肯定的說(shuō)——100家號(hào)稱(chēng)自己做征信的公司中,80家是依靠于自己的特殊資源在做簡(jiǎn)單的數(shù)據(jù)販賣(mài)的工作,通過(guò)自己獨(dú)特的渠道獲得獨(dú)特的數(shù)據(jù),而些依托于自己本身特有場(chǎng)景所產(chǎn)生的數(shù)據(jù)源變成了目前市場(chǎng)上成為絕對(duì)主力的征信公司。真正依托技術(shù)做征信的公司實(shí)際上并沒(méi)有那么多。
而在我們看來(lái),真正的征信公司不僅僅是能夠產(chǎn)出原始底層數(shù)據(jù),關(guān)鍵是應(yīng)該根據(jù)原始數(shù)據(jù)所帶有的特質(zhì)進(jìn)行量化提純工作,并且最終這些可以體現(xiàn)在信用決策上。真正能完成這些的公司并不多,去掉那些販賣(mài)數(shù)據(jù)的公司,現(xiàn)在征信公司剩下20%都不到。
而在這20%的公司當(dāng)中,實(shí)際上又有很多公司并不是真正的我們意義上的第三方征信平臺(tái)。實(shí)際上他們都是依托于自己本身所擁有的借貸環(huán)境——一方面在通過(guò)放貸積累數(shù)據(jù),另一方面通過(guò)自己的建模工作同時(shí)提供征信。這樣的商業(yè)模式并沒(méi)有問(wèn)題,但是從某種角度來(lái)講,這樣的公司即扮演運(yùn)動(dòng)員的角色又扮演裁判的角色,但是在今后中國(guó)的征信市場(chǎng)如何看待這樣以借貸起來(lái)的征信公司,我想還是會(huì)有比較長(zhǎng)時(shí)間的爭(zhēng)論。
很多人都會(huì)問(wèn),一個(gè)技術(shù)起家的公司,在數(shù)據(jù)清洗方面到底有什么地方能跟其他公司做得不一樣的。這一點(diǎn)上,我想分享一個(gè)有意思的應(yīng)用場(chǎng)景,做機(jī)器學(xué)習(xí),我們可以把幾乎所有的場(chǎng)景變成兩個(gè)類(lèi)別Supervised learning(監(jiān)督學(xué)習(xí) ) 和Unsupervised learning(無(wú)監(jiān)督學(xué)習(xí))。在這兩個(gè)場(chǎng)景場(chǎng)景當(dāng)中,當(dāng)我們?cè)谶M(jìn)行無(wú)監(jiān)督學(xué)習(xí)的時(shí)候,我們并不需要一個(gè)人還貸記錄這樣的好壞標(biāo)簽,我們可以通過(guò)一些其他的變量,來(lái)判別和進(jìn)行大的類(lèi)別的劃分。而監(jiān)督學(xué)習(xí)或者分類(lèi)過(guò)程中,我們應(yīng)該讓一開(kāi)始機(jī)器先找到一部分找到好壞標(biāo)簽新進(jìn)行學(xué)習(xí),然后再對(duì)新進(jìn)人群進(jìn)行判斷。