国产在线精品二区刘亦菲,作爱视频网站久久

　　第三個，我們要實現(xiàn)實時的計算架構(gòu)與算法。這里分幾層：第一個是實時采集，你現(xiàn)在有相關(guān)的合作伙伴也好、生態(tài)也好，自己的SDK也好，采集也好，通過智能設(shè)備也好，把你的數(shù)據(jù)采集上來。再往上是實時計算，這只是其中的一部分，我把數(shù)據(jù)實時計算出來，因為你把它計算出來如果你不能給它做很好的查詢，其實這件事情還沒有達到分析報表層面。所以再往上一層最基本的，實時查詢，目前也是越來越多的開源和相關(guān)的技術(shù)小伙伴投入到里面，比如像麒麟，他主要做實時OLAP查詢，百億級的數(shù)據(jù)怎么能夠在秒級別甚至毫秒級別能夠把數(shù)據(jù)查詢出來，這是像麒麟這樣的。像Greenplum，他怎么能夠在那么大數(shù)據(jù)量里面秒級相關(guān)數(shù)據(jù)查詢，當然，現(xiàn)在也有一個新出的Druid，很多用戶在用，也是實時OLAP引擎查詢。包括Impala、Spark SQL，我們計算到某一個結(jié)果以后，要給你的業(yè)務(wù)部門，要給你的分析師，要給你的相關(guān)風險控制部門能查到這些用戶實時動態(tài)，不僅僅是當前此時此刻的數(shù)據(jù)，還包括了這個用戶以往一年兩年、三年，甚至很長的數(shù)據(jù)，能夠?qū)崟r把數(shù)據(jù)相關(guān)分析做起來。

　　后面這個稍微多講一點，實時分析算法，大家比較熟悉的是R，MLlib ，Kamanja，MOA，SAMOA，后面三個是大家不太熟悉的，開源也有一段時間了，他們做流式數(shù)據(jù)挖掘的，我給大家多講兩句SAMOA，我們做了采集，做了計算，做了查詢，其實并沒有做完，需要將你現(xiàn)在的狀況把它實時分析出來，變成一個模型。舉一個例子，昨天Google的郭老師舉了一個例子，Google做防風險欺詐的時候，能看到手機屏幕點擊的位置，從而看到你這個人是機器在點還是人在點，這個過程完全就是通過我們流式的聚類就能做出來，每次點擊的時候能夠看到每個設(shè)備究竟是聚在一起點擊還是隨機點屏幕任何東西，從而看到防欺詐相關(guān)的算法。再往上相關(guān)的并發(fā)服務(wù)很多小伙伴比較熟悉了，比如現(xiàn)在常用挖掘的實時Python，我就不做分析了。

8/10 首頁上一頁 6 7 8 9 10 下一頁尾頁

企業(yè)大數(shù)據(jù)的實時分析之路