面對(duì)這樣的挑戰(zhàn),RCS更加密切地加強(qiáng)了和京東大數(shù)據(jù)平臺(tái)的合作。在實(shí)時(shí)識(shí)別數(shù)據(jù)的存儲(chǔ)方面,面對(duì)每天十幾億的識(shí)別流水信息,引入了Kafka+Presto的組合。通過Presto對(duì)緩存在Kafka一周之內(nèi)的識(shí)別數(shù)據(jù)進(jìn)行實(shí)時(shí)查詢。超過1周的數(shù)據(jù)通過ETL寫入Presto的HDFS,支持歷史查詢。在RCS識(shí)別維度提升方面,目前已經(jīng)與京東用戶風(fēng)險(xiǎn)評(píng)分等級(jí)系統(tǒng)打通流程,目前已拿到超過1億的基于社交網(wǎng)絡(luò)維度計(jì)算的風(fēng)險(xiǎn)等級(jí),用于風(fēng)險(xiǎn)信用識(shí)別。在風(fēng)險(xiǎn)等級(jí)的實(shí)時(shí)計(jì)算方面,已經(jīng)逐步切換到大數(shù)據(jù)部基于Strom打造的流式計(jì)算計(jì)算平臺(tái)JRC。
5.風(fēng)控?cái)?shù)據(jù)支撐系統(tǒng)
風(fēng)控?cái)?shù)據(jù)支撐系統(tǒng)是圍繞著京東用戶風(fēng)險(xiǎn)評(píng)分等級(jí)系統(tǒng)搭建起來的一整套風(fēng)控?cái)?shù)據(jù)挖掘體系。
1RDSS的核心架構(gòu)

1) 數(shù)據(jù)層
如圖所示,數(shù)據(jù)層負(fù)責(zé)數(shù)據(jù)的抽取、清洗、預(yù)處理。目前ETL程序通過JMQ、Kafka、數(shù)據(jù)集市、基礎(chǔ)信息接口、日志接入了超過500個(gè)生產(chǎn)系統(tǒng)的業(yè)務(wù)數(shù)據(jù),其中包括大量的非結(jié)構(gòu)化數(shù)據(jù)。通過對(duì)數(shù)據(jù)的多樣性、依賴性、不穩(wěn)定性進(jìn)行處理,最終輸出完整的、一致性的風(fēng)控指標(biāo)數(shù)據(jù),并通過數(shù)據(jù)接口提供給算法引擎層調(diào)用。這一層最關(guān)鍵的部分是在對(duì)風(fēng)控指標(biāo)數(shù)據(jù)的整理。指標(biāo)數(shù)據(jù)質(zhì)量的好壞直接關(guān)聯(lián)到系統(tǒng)的最終輸出結(jié)果。目前指標(biāo)的整理主要從以下三個(gè)維度開展:
a) 基于用戶生命周期的指標(biāo)數(shù)據(jù)整理
對(duì)于電商業(yè)務(wù)而言,一個(gè)普通用戶基本上都會(huì)存在以下幾種粘性狀態(tài),從嘗試注冊(cè),到嘗試購買;從被深度吸引,到逐漸理性消費(fèi)。每一種狀態(tài)總是伴隨著一定的消費(fèi)特征,而這些特征也將成為我們捕獲用戶異常行為的有利數(shù)據(jù)。

b) 基于用戶購買流程的風(fēng)控指標(biāo)數(shù)據(jù)整理
對(duì)于一般用戶而說,其購買習(xí)慣具有相當(dāng)?shù)墓残?,例如,通常都?huì)對(duì)自己需求的商品進(jìn)行搜索,對(duì)搜索結(jié)果中自己感興趣的品牌進(jìn)行瀏覽比較,幾經(jīng)反復(fù)才最終做出購買決定。在真正購買之前還要找一下相關(guān)的優(yōu)惠券,在支付過程中也會(huì)或多或少有些停頓。而對(duì)于黃牛來說,他們目標(biāo)明確,登錄之后直奔主題,爽快支付,這些在瀏覽行為上的差異也是我們尋找惡意用戶的有利數(shù)據(jù)。

c) 基于用戶社交網(wǎng)絡(luò)的風(fēng)控指標(biāo)數(shù)據(jù)整理
基于用戶社交網(wǎng)絡(luò)的指標(biāo)數(shù)據(jù)是建立在當(dāng)前風(fēng)控領(lǐng)域的黑色產(chǎn)業(yè)鏈已經(jīng)逐漸成體系的背景下的。往往那些不懷好意的用戶總會(huì)在某些特征上有所聚集,這背后也就是一家家黃牛,刷單公司,通過這種方式可以實(shí)現(xiàn)一個(gè)抓出一串,個(gè)別找到同伙的效果。

2) 算法引擎層
算法引擎層集合了各種數(shù)據(jù)挖掘算法,在系統(tǒng)內(nèi)被分門別類的封裝成各種常用的分類、聚類、關(guān)聯(lián)、推薦等算法集,提供給分析引擎層進(jìn)行調(diào)用。
3) 分析引擎層
分析引擎層是風(fēng)控?cái)?shù)據(jù)分析師工作的主要平臺(tái),數(shù)據(jù)分析師可以在分析引擎層依據(jù)業(yè)務(wù)設(shè)立項(xiàng)目,并且在平臺(tái)上開展數(shù)據(jù)挖掘全流程的工作,最終產(chǎn)出風(fēng)控模型和識(shí)別規(guī)則。
4) 決策引擎層
決策引擎層負(fù)責(zé)模型和規(guī)則的管理,所有系統(tǒng)產(chǎn)出的模型及規(guī)則都集合在這里進(jìn)行統(tǒng)一管理更新。
5) 應(yīng)用層
應(yīng)用層主要涵蓋了決策引擎層產(chǎn)出模型和規(guī)則的應(yīng)用場(chǎng)景,這里最重要的就是風(fēng)險(xiǎn)信用服務(wù)(RCS),其主要職能是對(duì)接底層數(shù)據(jù),對(duì)外層業(yè)務(wù)風(fēng)控系統(tǒng)提供風(fēng)險(xiǎn)識(shí)別服務(wù)。
而在模型和規(guī)則投入使用之前必須要經(jīng)過我們另外一個(gè)重要的系統(tǒng)也就是風(fēng)控?cái)?shù)據(jù)分析平臺(tái)(FBI),因?yàn)樗械哪P秃鸵?guī)則都先將在這個(gè)平臺(tái)中進(jìn)行評(píng)估,其輸入就是所有規(guī)則和模型的產(chǎn)出數(shù)據(jù),輸出就是評(píng)估結(jié)果,評(píng)估結(jié)果也將反饋到?jīng)Q策引擎層來進(jìn)行下一步的規(guī)則,模型優(yōu)化。
2RDSS之用戶風(fēng)險(xiǎn)評(píng)分等級(jí)系統(tǒng)
京東用戶風(fēng)險(xiǎn)評(píng)分等級(jí)系統(tǒng)是天網(wǎng)數(shù)據(jù)挖掘體系孵化出的第一個(gè)數(shù)據(jù)項(xiàng)目。其主要目的在于將所有的京東用戶進(jìn)行分級(jí),明確哪些是忠實(shí)用戶,哪些又是需要重點(diǎn)關(guān)注的惡意用戶。其實(shí)現(xiàn)原理是依賴前面所描述的社交關(guān)系網(wǎng)絡(luò)去識(shí)別京東用戶的風(fēng)險(xiǎn)程度。而這種方式在整個(gè)數(shù)據(jù)領(lǐng)域來說都是屬于領(lǐng)先的。京東用戶風(fēng)險(xiǎn)評(píng)分等級(jí)系統(tǒng)一期已經(jīng)產(chǎn)出1億數(shù)據(jù),目前已經(jīng)通過RCS系統(tǒng)對(duì)外提供服務(wù)。根據(jù)識(shí)別結(jié)果評(píng)估,識(shí)別忠實(shí)用戶較RCS風(fēng)險(xiǎn)庫增加37%,識(shí)別的惡意用戶較RCS風(fēng)險(xiǎn)庫增加10%。