其次,大數(shù)據(jù)和云計算的目標受眾不同,云計算是賣給CIO的技術和產(chǎn)品,是一個進階的IT解決方案。而大數(shù)據(jù)是賣給CEO、賣給業(yè)務層的產(chǎn)品,大數(shù)據(jù)的決策者是業(yè)務層。由于他們能直接感受到來自市場競爭的壓力,必須在業(yè)務上以更有競爭力的方式戰(zhàn)勝對手。比如電信運營商可以用大數(shù)據(jù)分析手機用戶流失的原因是什么。某家領先的手機運營商,他們采用大數(shù)據(jù)解決方案一個星期,就發(fā)現(xiàn)了原因,并使公司獲得了1億美元的高回報。
VMware是業(yè)界領先的云基礎架構廠商,在IaaS、PaaS和SaaS領域都有很強的技術、產(chǎn)品和解決方案。在管理Hadoop平臺時,VMware有相對應的產(chǎn)品,如vFabric Data Director和Serengeti。這兩項技術都能對Hadoop平臺進行有效管理,起到快速部署、一鍵式管理等功能。
VMware最近收購了一家公司Nicira,即進行線上服務分析的云服務公司。它可以使大量的數(shù)據(jù),無論是預置數(shù)據(jù),還是其他應用數(shù)據(jù),都能輕松上傳到它的服務中去,進行快速分析,并以圖表進行展示結(jié)果。無論是大公司還是小公司,抑或某個部門,都很容易應用大數(shù)據(jù)技術。VMware致力于為高速跑車建造高速公路,讓大數(shù)據(jù)和云進行有效結(jié)合。
虛擬化提高Hadoop的安全性、靈活性和易管理性
Hadoop是Apache基金會發(fā)起和研發(fā)的,是目前業(yè)界公認的開放平臺之一。授權公司可以發(fā)布自己相應的Hadoop版本。以Hadoop為代表的分布式系統(tǒng),是大數(shù)據(jù)系統(tǒng)必要但不充分的組成部分。必要性是因為現(xiàn)在的大數(shù)據(jù)中很多數(shù)據(jù)是機器產(chǎn)生的數(shù)據(jù),或者是物聯(lián)網(wǎng)各種各樣的探測器、電腦產(chǎn)生的日志,這些是人為產(chǎn)生的,而且數(shù)量巨大,不適合把它直接放到數(shù)據(jù)庫中去。而Hadoop就提供了全新的方式,可以輕松進行平面擴展,把這些數(shù)據(jù)放在庫里進行任意的數(shù)據(jù)分析。Hadoop成功的建立了這個環(huán)境,使得圍繞Hadoop的軟件能夠提供各種各樣的功能,完成智能分析工作。
說它是不充分的理由是因為我們需要對數(shù)據(jù)進行分析,客戶可以把數(shù)據(jù)放池子里,Hadoop則把這些數(shù)據(jù)分成幾百個、幾千個節(jié)點,這是在特定的某些應用場景必須進行的部分。但是更多的應用場景是需要實時的反應,互動的反應,這時候就需要其他技術,包括內(nèi)存類檢索技術,甚至在數(shù)據(jù)產(chǎn)生時要進行實時反應的技術。這些技術都結(jié)合在一起,才是一個完整的大數(shù)據(jù)處理系統(tǒng)。所以VMware及其合作伙伴一直在實時反應、互動和內(nèi)容檢索等方面不斷努力。
VMware的戰(zhàn)略方向是和業(yè)界領先的不同版本都進行合作,以開放的態(tài)度建立一個生態(tài)圈,支持所有版本的Hadoop都能在VMware的虛擬化平臺上運行。在這個指導方向下,VMware做了如下幾方面的工作。一方面是和社區(qū)緊密合作,VMware開發(fā)者和和社區(qū)的開發(fā)者一起,輸入Apache源代碼庫。Hadoop在它產(chǎn)生的時候,并沒有考慮到虛擬環(huán)境,它是一個物理環(huán)境的技術,比如機器和機架的物理概念,但沒有虛擬機的概念,VMware加進去的代碼就加進了虛擬機的概念,虛擬機的概念和其他概念有一些不一樣,需要特殊處理,在源代碼里就知道它在虛擬環(huán)境中運行,進行優(yōu)化。通過VMware的努力,使得現(xiàn)在的Hadoop開源技術,能夠在虛擬化環(huán)境里運行。能夠讓它十分鐘甚至更短的時間之內(nèi),從無到有,產(chǎn)生新集群。VMware的目標就是為超級跑車創(chuàng)造一條寬敞大道,使得大數(shù)據(jù)跑車能夠快速跑起來。
另外, VMware虛擬化對Hadoop的作用,就是使它更接地氣,并從現(xiàn)實角度適用于云計算環(huán)境,使它更易于管理并且安全。
第一、讓Hadoop適用于多租戶環(huán)境,很多時候公司里需要Hadoop或者大數(shù)據(jù)系統(tǒng),往往不只是一個部門,不同部門在私有云里有可能都需要自己的Hadoop集群。在公有云上就有更多類似的需求,虛擬化就提供了一個很好的架構,可以使得多個集群之間非常靈活的同時運行,不互相影響。