VMware試圖讓Hadoop運行在虛擬環(huán)境中來應(yīng)對大數(shù)據(jù)的挑戰(zhàn),但這不僅面臨技術(shù)上的難題,來自競爭對手的狙擊也不容忽視
【IT專家網(wǎng) 虛擬化頻道】如果軟件應(yīng)用能夠超越一切基礎(chǔ)架構(gòu)的差異性,企業(yè)IT將會少掉多少煩惱?本周舉行的VMworld 2012大會上,VMWare重申了該公司的重大圖謀:將所有物理資源虛擬化,實現(xiàn)全面池化以快速調(diào)配和部署,即軟件定義型數(shù)據(jù)中心(SDDC)。在應(yīng)用層,這家虛擬化巨頭正在努力將Hadoop搬進虛機之中,以應(yīng)對“大數(shù)據(jù)”。
大數(shù)據(jù)是時下業(yè)界熱議的話題,走向宏圖的路上,VMware自然無法對其視而不見,但要實現(xiàn)Hadoop的虛擬化,VMware能否一帆風順呢?
情定Hadoop,情有可原
站在大數(shù)據(jù)時代的邊上,Apache Hadoop由于其低成本、可擴展性等優(yōu)勢,成為IT廠商們的大數(shù)據(jù)處理策略的事實標準。因此,VMware對Hadoop青眼有加,也是意料之中的事,何況VMware的母公司EMC早已推出過Hadoop發(fā)行版,且EMC大數(shù)據(jù)分析平臺GreenPlum也是實現(xiàn)了Hadoop處理。
VMware首席技術(shù)官 Steve Herrod博士
VMworld 2012上,VMware首席技術(shù)官 Steve Herrod博士在演講中表示,Vmware的開源項目Serengeti,將支持企業(yè)能夠在虛擬和云環(huán)境中快速部署、管理和擴展Hadoop。
此前,VMware宣布了其大數(shù)據(jù)策略:在統(tǒng)一的vSphere云架構(gòu)和HDFS文件系統(tǒng)之上,提供GemFire實時處理、GreenPlum交互處理及Hadoop批處理三種模式。另外,VMware收購的云端大數(shù)據(jù)分析工具Cetas,也是提供在Hadoop平臺上的分析服務(wù)的。(詳見:《三路出擊 VMware云平臺搶灘大數(shù)據(jù)》)
VMware大數(shù)據(jù)策略
從這個架構(gòu)中我們也可以看出,Hadoop在虛擬環(huán)境中的成熟程度,對VMware的大數(shù)據(jù)策略至關(guān)重要。
先天不足,Serengeti補之
只是Hadoop既非萬能,也受限于環(huán)境。首先,作為開源項目,Hadoop存在部署和運營的復(fù)雜性、特定的硬件需求、安全上的顧慮和服務(wù)水平保障等障礙,讓企業(yè)很難充分發(fā)揮其威力,這也是各種Hadoop發(fā)行版誕生的直接原因。
對VMware來說,更為關(guān)鍵的是,根據(jù)Apache的Virtual Hadoop wiki文檔給出的結(jié)論,You can bring up Hadoop in cloud infrastructures, and sometimes it makes sense, for development and production. For production use, be aware that the differences between physical and virtual infrastructures can threaten your data integrity and security - and you must plan for that.(可以將Hadoop帶到云基礎(chǔ)架構(gòu)上,但物理和虛擬基礎(chǔ)設(shè)施之間的差異可能危及數(shù)據(jù)完整性和安全性。)
在針對大數(shù)據(jù)項目的風險的探討中,許多業(yè)界專家都指出數(shù)據(jù)的完整性的重要性,所以這個問題必須解決,Serengeti應(yīng)運而生。
Steve Herrod博士稱,Serngeti的作用就是可以快速在虛擬化環(huán)境中部署Hadoop,并進行有效的監(jiān)測和管理,實現(xiàn)Hadoop集群的高彈性。當然,VMware還提到過,虛擬化還讓Hadoop適用于多租戶環(huán)境,讓Hadoop安全性提高(這里指VMware虛擬化在不同集群之間產(chǎn)生強隔離)。
此外,VMware也致力于同Hadoop合作伙伴共同改變Hadoop分布式文件系統(tǒng)和Hadoop MapReduce開發(fā)。Spring for Apache Hadoop(2012年2月首次發(fā)布的開源項目)的更新,讓企業(yè)開發(fā)者能夠輕松利用Apache Hadoop開發(fā)分布式處理解決方案。
Serngeti開源項目
但還是有問題。虛擬化做得再好,性能損耗是很難避免的。微軟亞太研發(fā)集團首席技術(shù)官孫博凱(Prakash Sundaresan)坦言,Windows Azure的主要功能是提供池化的IT資源與服務(wù),從每個節(jié)點看,虛擬層會造成每節(jié)點10%左右的性能損耗。