互聯(lián)網(wǎng),基本上是免費(fèi)導(dǎo)向,所以常常選擇開源的工具,例如MySql、R、Python等。常常是基于hadoop的分布式數(shù)據(jù)采集、加工、存儲和分析。
商業(yè)銀行一般基于成熟的數(shù)據(jù)倉庫,例如TD,以及一些成熟的數(shù)據(jù)挖掘工具,SAS EG和EM。
(四)應(yīng)用場景
在應(yīng)用場景上,兩者之間也存在著非常大的差異。
(1)金融領(lǐng)域
金融領(lǐng)域的數(shù)據(jù)挖掘,不同的細(xì)分行業(yè)(如銀行和證券),也是存在差別的。
銀行領(lǐng)域的統(tǒng)計(jì)建模。銀行內(nèi)的數(shù)據(jù)挖掘,較為側(cè)重統(tǒng)計(jì)建模,數(shù)據(jù)分析對象主要為截面數(shù)據(jù),一般包括客戶智能(CI)、運(yùn)營智能(OI)和風(fēng)險(xiǎn)智能(RI)。開發(fā)的模型以離線為主,少量模型,例如反欺詐、申請?jiān)u分,對實(shí)時(shí)性的要求比較高。
證券領(lǐng)域的量化分析。證券行業(yè)的挖掘工作,更加側(cè)重量化分析,分析對象更多的是時(shí)間序列數(shù)據(jù),旨在從大盤指數(shù)、波動特點(diǎn)、歷史數(shù)據(jù)中發(fā)現(xiàn)趨勢和機(jī)會,進(jìn)行短期的套利操作。量化分析的實(shí)時(shí)性要求也比較高,可能是離線運(yùn)算模型,但是在交易系統(tǒng)部署后,實(shí)時(shí)運(yùn)算,捕捉交易事件和交易機(jī)會。