以上就是在360典型的幾種應用的場景,數(shù)據(jù)驅(qū)動安全、360搜索、360云盤、各種各樣產(chǎn)品和數(shù)據(jù)的分析。
前面是360內(nèi)部我們通過五六年的時間構(gòu)建起來的幾萬臺的大數(shù)據(jù)平臺,為我們360自己的產(chǎn)品和業(yè)務提供服務。從去年開始我們在想能不能把我們這種大數(shù)據(jù)平臺的能力和大數(shù)據(jù)平臺的技術能夠輸出到企業(yè)和政府的客戶那邊去,所以說我們后面提出了360安全大數(shù)據(jù)平臺這樣一個產(chǎn)品,我們也正在不斷的研發(fā)和改進過程中。
我們產(chǎn)品的架構(gòu)其實也比較簡單,分為四大塊,中間這一大塊是核心的大數(shù)據(jù)平臺,包括底層分布式的存儲和分布式的計算,這個不用說,基本上都是開源的東西,大家看一看就好了。在中間有一層分析層,這是給我們數(shù)據(jù)的分析人員,或者是數(shù)據(jù)分了軟件對接使用的。包括結(jié)構(gòu)化的SQL分析,復雜關聯(lián)數(shù)據(jù)的分析,還有在大量的數(shù)據(jù)里面去做快速的搜索,還有我們能夠進行大規(guī)模的機器學習、深度學習,這是四個數(shù)據(jù)分析的組件或者是產(chǎn)品。最上層的可能是一些大數(shù)據(jù)的應用,剛才我已經(jīng)介紹了一些了,這里還有很多的應用。還有包括剛才我講到公司里面各種產(chǎn)品的數(shù)據(jù)分析和統(tǒng)計,這也是一大類的應用,還有一些產(chǎn)品可以提供出來,這是核心的平臺。
最左邊是我們數(shù)據(jù)的接入,你的數(shù)據(jù)怎么接入到大數(shù)據(jù)平臺,這本身也是一個問題,包括流失數(shù)據(jù)的接入,包括數(shù)據(jù)的導入等等。最右邊是大數(shù)據(jù)管理,大數(shù)據(jù)平臺要用好的話其實并不是特別容易,面臨兩個方面的問題,包括我怎么去管理這個大數(shù)據(jù)的平臺,這個我們有一個產(chǎn)品系統(tǒng)的去管理我們的平臺,還有一個就是我的數(shù)據(jù)分析師能夠使用大數(shù)據(jù)做一些分析。大數(shù)據(jù)的安全在開源的產(chǎn)品里面剛開始考慮不太多,假設是在一個封閉的內(nèi)網(wǎng)環(huán)境里面,安全的問題可能沒有那么突出,我們要對大數(shù)據(jù)平臺的安全進行加固,這也是我們360做安全的一個強項,這是我們360安全平臺的架構(gòu)。
360大數(shù)據(jù)平臺的三個特點:第一是有超大規(guī)模海量數(shù)據(jù)成熟的實戰(zhàn)經(jīng)驗。剛才我也介紹了,基本上我們的服務器是4萬臺,數(shù)據(jù)達到EB,這個在全球應該也是Top10的,超過EB級數(shù)據(jù)量的公司應該沒有幾家。在這幾萬臺服務器上我們一直穩(wěn)定了五六年,不停的改進,不停的維護。在這幾年中,為360各種各樣的業(yè)務提供服務,包括要求非常高的在線的毫秒級的實時訪問,還有離線的非常多數(shù)據(jù)批處理的數(shù)據(jù),還有更多的智能機器學習的算法,一些數(shù)據(jù)挖掘的算法等等。最關鍵的是我們通過這幾年的積累,建立起來了一支一流的大數(shù)據(jù)研發(fā)團隊。
第二360大數(shù)據(jù)的平臺是基于開放的技術,硬件采用開放的X86的服務器,軟件是基于開源的大數(shù)據(jù)一些系統(tǒng)進行定制,保證API,有更多的第三方廠商在上面開發(fā)應用,這是一個特別的版本。
第三安全和專業(yè)。我們認為大數(shù)據(jù)平臺有它的通用性,但是也有專業(yè)性,我們更擅長的是在存儲、處理安全數(shù)據(jù)的大平臺,我們是一個安全數(shù)據(jù)的專業(yè)平臺。為什么這樣說?因為安全數(shù)據(jù)本身就不應該跟其他數(shù)據(jù)混在一起,我們建議是采用獨立的方式去存儲它,它有獨立的要求,因為十月這些安全數(shù)據(jù)的人和普通的業(yè)務數(shù)據(jù)不一樣,他訪問的模式也不一樣,也需要不一樣的應用去使用這些數(shù)據(jù)。這種安全數(shù)據(jù)本身防護的等級也需要加強,所以說我們要對大數(shù)據(jù)平臺進行安全體系的加固。
BigSQL,做結(jié)構(gòu)化數(shù)據(jù)的分析,不管在企業(yè)還是在政府那邊,結(jié)構(gòu)化的數(shù)據(jù)是非常多的,但是結(jié)構(gòu)化數(shù)據(jù)越來越多的時候,達到TB級、PB級的時候數(shù)據(jù)庫不一定好用了,這個時候需要大數(shù)據(jù)來解決,我們提供了一系列BigSQL結(jié)構(gòu)化數(shù)據(jù)分析的方案,能夠快速的去分析結(jié)構(gòu)化的數(shù)據(jù)。
BigGraph,其實SQL是典型的表結(jié)構(gòu)的數(shù)據(jù),很規(guī)整的數(shù)據(jù)。而實際在現(xiàn)實生活中,很多數(shù)據(jù)并不一定有那么規(guī)整,而且數(shù)據(jù)與數(shù)據(jù)之間的關聯(lián)關系非常強,比如人和人之間的關系,在圖里面就是點和邊,在一個計算機網(wǎng)絡里面,兩個機器之間要通信,就形成一條邊,這是一個非常通用的模型,大數(shù)據(jù)還沒有很成熟的技術,在這一塊我們也是提前做投入。這一塊將來我們的目標是能夠支持到百億節(jié)點的大圖,用這樣的一個圖的技術,我們可以解決很多像網(wǎng)絡安全、國家安全、知識圖譜、社交圖譜方面的一些問題。
BigSearch,在數(shù)據(jù)越來越大的時候,前些年我們可能用Spark算一些東西就滿足要求了,現(xiàn)在越來越看到交互式數(shù)據(jù)分析的能力,能不能從大量的數(shù)據(jù)當中快速找到我想要的數(shù)據(jù),所以說我們需要對大數(shù)據(jù)具備快速的檢索能力,這是BigSearch做的事情。