第三個,我們要實現(xiàn)實時的計算架構(gòu)與算法。這里分幾層:第一個是實時采集,你現(xiàn)在有相關(guān)的合作伙伴也好、生態(tài)也好,自己的SDK也好,采集也好,通過智能設(shè)備也好,把你的數(shù)據(jù)采集上來。再往上是實時計算,這只是其中的一部分,我把數(shù)據(jù)實時計算出來,因為你把它計算出來如果你不能給它做很好的查詢,其實這件事情還沒有達到分析報表層面。所以再往上一層最基本的,實時查詢,目前也是越來越多的開源和相關(guān)的技術(shù)小伙伴投入到里面,比如像麒麟,他主要做實時OLAP查詢,百億級的數(shù)據(jù)怎么能夠在秒級別甚至毫秒級別能夠把數(shù)據(jù)查詢出來,這是像麒麟這樣的。像Greenplum,他怎么能夠在那么大數(shù)據(jù)量里面秒級相關(guān)數(shù)據(jù)查詢,當然,現(xiàn)在也有一個新出的Druid,很多用戶在用,也是實時OLAP引擎查詢。包括Impala、Spark SQL,我們計算到某一個結(jié)果以后,要給你的業(yè)務(wù)部門,要給你的分析師,要給你的相關(guān)風險控制部門能查到這些用戶實時動態(tài),不僅僅是當前此時此刻的數(shù)據(jù),還包括了這個用戶以往一年兩年、三年,甚至很長的數(shù)據(jù),能夠?qū)崟r把數(shù)據(jù)相關(guān)分析做起來。
后面這個稍微多講一點,實時分析算法,大家比較熟悉的是R,MLlib ,Kamanja,MOA,SAMOA,后面三個是大家不太熟悉的,開源也有一段時間了,他們做流式數(shù)據(jù)挖掘的,我給大家多講兩句SAMOA,我們做了采集,做了計算,做了查詢,其實并沒有做完,需要將你現(xiàn)在的狀況把它實時分析出來,變成一個模型。舉一個例子,昨天Google的郭老師舉了一個例子,Google做防風險欺詐的時候,能看到手機屏幕點擊的位置,從而看到你這個人是機器在點還是人在點,這個過程完全就是通過我們流式的聚類就能做出來,每次點擊的時候能夠看到每個設(shè)備究竟是聚在一起點擊還是隨機點屏幕任何東西,從而看到防欺詐相關(guān)的算法。再往上相關(guān)的并發(fā)服務(wù)很多小伙伴比較熟悉了,比如現(xiàn)在常用挖掘的實時Python,我就不做分析了。