在這一塊,上層我們會借助這個容器把這個東西所有的標準化容器放在一個里面,所有的服務(wù)都可以自動通過組裝方式來構(gòu)建這個應(yīng)用。整個實現(xiàn)了兩個特點,一個是解決了應(yīng)用標準化的問題,通過容器來實現(xiàn),另外是實現(xiàn)了運維自動化的問題,整個平臺我們通過調(diào)度器來進行管理,自動擴容、自動收縮,出故障會自動修復(fù),在運維上極大的減輕了IT部門的壓力。這一塊因為采用容器,隔離性非常好,可以使得不同部門之間共享一套平臺。
這個設(shè)計模式是借助流處理,我們在這里不詳細講了?,F(xiàn)在隨著工業(yè)4.0的發(fā)展,物聯(lián)網(wǎng)越來越多,大家需要通過新的技術(shù)對數(shù)據(jù)進行實時處理。過去能夠完成數(shù)據(jù)的實時存儲,但是不能做實時分析。應(yīng)用的需求總是希望越來越復(fù)雜,需要對這個計算平臺的能力越來越高,這一塊我們需要在流上面支持復(fù)雜的SQL,比如說存儲過程,甚至是機器學習。目前這一款產(chǎn)品也是我們比較有特色的,要遠遠超過國外友商的產(chǎn)品,我們可以在流的產(chǎn)品上面支持非常復(fù)雜的SQL,也能夠在流上做機器學習。這也是我們用流數(shù)據(jù)來實現(xiàn)的一個重要手段。
這個設(shè)計架構(gòu)基本上要從原來對于歷史數(shù)據(jù)的分析轉(zhuǎn)變成對于數(shù)據(jù)規(guī)律的探索以及未來的預(yù)測上面。這一塊我們采用的方式,其實是分成幾個階段,首先是數(shù)據(jù)清洗,選取特征,再就是建模,還有就是把一個計算模型能夠應(yīng)用或者是展現(xiàn),作為決策支持。我們在這一塊我們是通過SQL引擎來做加工,對外完整的提供接口,所有的對表的措施都是用原生操作來實現(xiàn)的,內(nèi)部我們會自動的定義。另外我們也是現(xiàn)在的算法,分類、聚類、反樣回歸的神經(jīng)網(wǎng)絡(luò),做時序的關(guān)聯(lián)分析,都已經(jīng)整個用分布式方法重新實現(xiàn)了一遍,也提供了二元的接口,用戶可以直接來做這個數(shù)據(jù)建模。這一塊我們現(xiàn)在看到在國內(nèi)應(yīng)用不是特別多,大概只有8%的客戶在用機器學習。當然趨勢是非??斓?,有一些客戶建好這個Hadoop平臺以后,在想怎么從數(shù)據(jù)當中發(fā)掘價值,就需要這種產(chǎn)品。其實有很多咨詢機構(gòu),包括大數(shù)據(jù)應(yīng)用的第一個難點是沒有一個好的工具來做數(shù)據(jù)挖掘,不能從數(shù)據(jù)當中發(fā)揮價值,妨礙大家去應(yīng)用這種新的技術(shù)。我們的目標是希望提供一個非常易用的,但是非常強大的一個工具,讓大家能夠非常容易的發(fā)掘數(shù)據(jù)的價值。
綜合起來我們看到,在整個數(shù)據(jù)倉庫建設(shè)當中,我們可以借助新的平臺,就可以把原來的架構(gòu)重新設(shè)計一下,整個數(shù)據(jù)源通過實時和半實時的方式,可以進入一個邏輯數(shù)據(jù)倉庫,甚至可以跨多個數(shù)據(jù)源進行訪問。同時底下是容器化的平臺來對外提供數(shù)據(jù)的隔離和訪問控制。
我再介紹一下工信部電信研究院最近在做的性能測試,這個其實是結(jié)合了國內(nèi)20多家大數(shù)據(jù)的企業(yè)共同制定的一個標準,是比較公平客觀的標準,也是能反映大數(shù)據(jù)的行業(yè)應(yīng)用的一些需求的特點,同時包括今天上午我們也給其他大數(shù)據(jù)廠商做了一個證書的頒發(fā),我們希望有更多的廠商能夠參與到這個測試當中,也給客戶提供一個客觀公正的標準。
我今天的演講就到這里,謝謝大家!