基于此,鄂維南院士將海外成熟的大數(shù)據(jù)建模分析技術(shù)帶回國內(nèi),并組織成立了北京大數(shù)據(jù)研究院和普林科技,北京大數(shù)據(jù)研究院專注于頂層設(shè)計,探索大數(shù)據(jù)行業(yè)產(chǎn)學(xué)研相結(jié)的發(fā)展模式,普林科技負責(zé)落地實施,從業(yè)務(wù)層面推動大數(shù)據(jù)行業(yè)發(fā)展。
其次中國的數(shù)據(jù)有它的特色,例如在金融行業(yè),目前大部分銀行采用的是風(fēng)險評分卡,運用專家經(jīng)驗定義風(fēng)險變量,基于定性認識進行評分,通過事后風(fēng)險回檢優(yōu)化評分卡,風(fēng)險預(yù)警功能較差。雖然央行征信中心與國內(nèi)少數(shù)技術(shù)領(lǐng)先銀行使用的是風(fēng)險評分模型,但模型方法相對陳舊,如央行所用FICO評分模型為上世紀80年代基于邏輯回歸算法構(gòu)建的評分體系,邏輯回歸算法適合處理線性數(shù)據(jù),但實際問題往往是非線性的,特別是信用風(fēng)險評估場景下。此外,F(xiàn)ICO模型沒有針對我國具體業(yè)務(wù)進行場景細分,建模邏輯并不完全符合我國實際情況,因此導(dǎo)致準確率不足,風(fēng)險預(yù)警能力差。
基于此,中國人民銀行征信中心首次與國內(nèi)大數(shù)據(jù)公司合作,這次合作中普林科技應(yīng)用國際領(lǐng)先的大數(shù)據(jù)建模分析技術(shù),運用決策樹,隨機森林,AdaBOOST,GBDT,SVM等算法,通過對信用報告的數(shù)字化解讀與深入洞察,準確預(yù)測了違約風(fēng)險,對貸款審批、貸中管理形成指導(dǎo),新模型對好壞賬戶的區(qū)分度遠高于行業(yè)平均水平。此次合作表明我國的大數(shù)據(jù)難題更需要適應(yīng)國情的解決方案與本土的技術(shù)人才,這對我們的市場提出了一個新問題。
3.人才難覓
我們國家大數(shù)據(jù)發(fā)展最大的優(yōu)勢就是市場大,最大的劣勢恰巧就是缺乏相應(yīng)人才,人才缺乏的程度非常嚴重。首先在國際市場方面,我們要跟國外公司爭人才,然而國外大數(shù)據(jù)行業(yè)同樣十分火熱。而不論在國內(nèi)還是國外,跟企業(yè)競爭人才都是一項艱巨的事業(yè),比如在世界上最好的大學(xué)之一的美國普林斯頓大學(xué),想找數(shù)學(xué)家也是非常困難,人才很容易被大公司挖走,每年都有非常好的數(shù)據(jù)分析人才被企業(yè)挖走。所以人才難覓不只是口頭說說,更是一個亟待解決的問題。
目前為止,我們國家仍然沒有良好的培育大數(shù)據(jù)人才的機制,大數(shù)據(jù)教育主要面臨以下三個問題。
首先,大數(shù)據(jù)是一個交叉學(xué)科,涉及統(tǒng)計學(xué),管理,編程等多學(xué)科,知識點復(fù)雜,培訓(xùn)課程編輯難度大,缺乏系統(tǒng)的學(xué)習(xí)教程;
其次,現(xiàn)階段大數(shù)據(jù)教育大多還停留在理論知識上,理論與實戰(zhàn)嚴重脫節(jié),學(xué)習(xí)者缺乏良好的實踐機會;
再次,大數(shù)據(jù)教育的根本目的是為了解決業(yè)務(wù)上面臨的實際問題,用科學(xué)的手段推動業(yè)務(wù)的進展,然而現(xiàn)階段的大數(shù)據(jù)教育機構(gòu)普遍缺乏相應(yīng)的業(yè)務(wù)經(jīng)驗,產(chǎn)學(xué)研結(jié)合并不密切。
針對這些問題,鄂維南院士講到:“其實我個人在這方面想了很長時間,就是怎樣才能在中國真正建設(shè)一個具有國際標準、國際水平的大數(shù)據(jù)平臺?我們國家擁有這么大的市場,我們在做大數(shù)據(jù)行業(yè)同時,一定要想著做就要做到這個領(lǐng)域領(lǐng)先水平。但要達到這個目標,有一點很關(guān)鍵,必須要有一個國際化標準的研究平臺,因此,我?guī)ь^成立了北京大數(shù)據(jù)研究院,而這個研究院所要做得事情,就是把人才培養(yǎng)教育和科研創(chuàng)新和市場化、產(chǎn)業(yè)化結(jié)合在一起。”