中國(guó)IDC圈1月14日?qǐng)?bào)道:現(xiàn)在越來(lái)越多的銀行業(yè)務(wù)依賴大數(shù)據(jù)和物聯(lián)網(wǎng)基礎(chǔ)設(shè)施,比如,移動(dòng)支付、網(wǎng)上銀行和智能售貨機(jī)。但在這些交易過(guò)程中存在大量的個(gè)人敏感的身份信息需要保護(hù)。大數(shù)據(jù)安全是一個(gè)極大挑戰(zhàn)的問(wèn)題,因?yàn)樽鞅渍咴诓粩嗟膶で笮路椒▉?lái)獲取到有價(jià)值的數(shù)據(jù)。為了防止這些壞家伙,人們需要不斷的去設(shè)計(jì)和發(fā)布新的大規(guī)模預(yù)測(cè)模型來(lái)預(yù)測(cè)作弊者的行為。不光銀行需要大數(shù)據(jù)安全保護(hù),任何含有對(duì)個(gè)人用戶信息personally identifiable information (PII)處理的商業(yè)交易都要做好保護(hù),比如,醫(yī)療機(jī)構(gòu)和保險(xiǎn)業(yè)。
最近有好消息稱,有越來(lái)越多的機(jī)器學(xué)習(xí)的專家、新的技術(shù)和工具來(lái)提供有效的分析模型,能夠鑒別潛在的 欺詐交易和釣魚式攻擊 。但不是所有公司都擁有機(jī)器學(xué)習(xí)專家來(lái)做這方面的工作,因此這些公司就需要從外面請(qǐng)一些專家來(lái)建立有效的模型來(lái)抵制作弊者。與此同時(shí),他們又不想自己用戶的信息讓其他公司知道。通過(guò)匿名用戶個(gè)人信息PII還保證不了這一點(diǎn)。那有沒(méi)有一種較好的方法能夠既利用外部力量而又不暴露本公司的敏感的數(shù)據(jù)呢?
圖一在紐約最近的一次大數(shù)據(jù)會(huì)議上,大數(shù)據(jù)公司MapR的首席架構(gòu)師Ted Dunning發(fā)表了一種新方法來(lái)解決上述問(wèn)題。
找出被盜商家
現(xiàn)在一個(gè)新的趨勢(shì)是:作弊者通過(guò)成千上萬(wàn)的用戶盜取個(gè)人信息來(lái)進(jìn)行許多小批量的欺詐交易。這樣他們可以在很短的時(shí)間里盜取百萬(wàn)美元/英鎊/歐元,通過(guò)被盜的商家或者網(wǎng)站來(lái)獲取大量的顧客的金融信息。作弊者不是偷一張信用卡然后去購(gòu)買大宗商品,因?yàn)檫@種行為容易被現(xiàn)在的安全軟件探測(cè)到,而是通過(guò)欺騙交易來(lái)進(jìn)行大批量的信用卡交易。這些小額購(gòu)買常常被用戶忽略,但是恰恰會(huì)被不良作弊者利用。為了應(yīng)對(duì)這種潛在的通過(guò)被盜商家來(lái)進(jìn)行盜竊的行為,一家大型金融機(jī)構(gòu)采用大數(shù)據(jù)公司MapR的技術(shù)來(lái)構(gòu)建新的模型來(lái)檢測(cè)這種分布式攻擊。他們的目標(biāo)是改善自己的欺詐檢測(cè)的能力:a)探測(cè)出更多的可疑事件,b)更及時(shí)的檢測(cè),在出現(xiàn)嚴(yán)重的影響之前盡可能的快的去關(guān)閉受影響的賬戶。
銀行有海量的個(gè)人交易行為數(shù)據(jù),Ted的方法是把銀行的每個(gè)顧客的交易數(shù)據(jù)按時(shí)間序列轉(zhuǎn)換,在商家出現(xiàn)被盜之前找出來(lái)。他采用的相似估計(jì)的方法把每個(gè)被盜商家的特征點(diǎn)提取出來(lái),然后進(jìn)行打分。但問(wèn)題在于即使是出于打擊盜取者,銀行也不太愿意把敏感的數(shù)據(jù)分享出來(lái)。
為了克服這個(gè)問(wèn)題,Ted寫了一個(gè)可根據(jù)個(gè)人需求定制的樣本數(shù)據(jù)生成的代碼 log-synth ,并開源在Github上。通過(guò)log-synth生成被盜過(guò)的用戶歷史數(shù)據(jù)模擬來(lái)找出被盜的特征。在模擬數(shù)據(jù)實(shí)驗(yàn)中,被盜商家有較高的打分。
構(gòu)建好探測(cè)模型,并進(jìn)行參數(shù)調(diào)優(yōu),然后將這個(gè)模型應(yīng)用到真實(shí)的交易數(shù)據(jù)。真實(shí)的數(shù)據(jù)分析更令人振奮,一個(gè)商家打分超過(guò)80分的(見圖2),經(jīng)銀行核實(shí)發(fā)現(xiàn)這個(gè)商家的確存在大量的數(shù)據(jù)泄露。
圖2 通過(guò)模擬數(shù)據(jù)構(gòu)建的模型運(yùn)用到真實(shí)數(shù)據(jù)中的情況
更好的數(shù)據(jù)模擬的方法
使用人為生成的數(shù)據(jù)來(lái)進(jìn)行構(gòu)建模型并不新鮮,但是這種方法卻經(jīng)常被人忽視。Ted發(fā)現(xiàn),想精確模擬真實(shí)世界的行為特征是非常難的一件事,而通過(guò)人為生成的數(shù)據(jù)就可以很好的構(gòu)建好的模型,這樣更快更容易。
這種方法不僅僅用于欺詐檢測(cè),也可以用于其它真實(shí)的情況。具體怎樣使用開源log-synth,在這里由于篇幅限制就不再細(xì)激昂,感興趣的可以去看Ted Dunning和Ellen Friedman寫的書 《Sharing Big Data Safely: Managing Data Security》 ,可免費(fèi)下載。