存儲巨頭EMC正在加大對Hadoop戰(zhàn)略的投入力度,EMC建立了一個1000節(jié)點集群用于測試新的Apache Hadoop版本,新的測試平臺被稱為“Greenplum Analytics Workbench”。同時還推出一種新的分析設備,這種設備將EMC Hadoop與EMC Greenplum數(shù)據(jù)庫結合在一起,并實現(xiàn)結構化和非結構化數(shù)據(jù)的協(xié)同處理。
大多數(shù)EMC的觀察人士都知道,新的數(shù)據(jù)計算設備同公司在5月推出Hadoop計劃時一起推出的。因為這為公司提供了一個在海量數(shù)據(jù)領域中統(tǒng)一且高利潤的方法。
Hadoop和分析數(shù)據(jù)庫在工作負載和數(shù)據(jù)類型上畢竟不同,傳統(tǒng)的整合兩種技術的方法將涉及到維護兩個單獨的環(huán)境。然而如Platfora和Hadapt實際上都在試圖改變這一局面,他們希望將Hadoop與數(shù)據(jù)倉庫的查詢集成在一種軟件產(chǎn)品里。
Greenplum聯(lián)合創(chuàng)始人兼高級副總裁Scott Yara對新設備進行了說明。它不僅支持Greenplum數(shù)據(jù)引擎和Hadoop,也可以為合作伙伴提供數(shù)據(jù)集成和商業(yè)智能。使其在系統(tǒng)中高速互聯(lián)并共享系統(tǒng)內(nèi)的一切。
EMC的Hadoop策略實際上非常獨特。EMC采用MapR的存儲有力地證明了這一點。在進入Hadoop領域的時候,EMC深知現(xiàn)有版本HDFS的缺點,因此EMC希望有一個存儲層能夠在性能、可用性和使用的便利性上提升HDFS。EMC Hadoop的另一個獨特之處在于它沒有采用官方版本的Apache代碼,而是采用Facebook的Hadoop代碼,后者在可擴展性和多站點部署上進行了優(yōu)化。
Yara表示他的團隊希望為Hadoop標準化作出自己的努力,他們搭建測試平臺也是在朝這個方向邁出的第一步。EMC的合作伙伴包括英特爾、Mellanox Technologies、鎂光、希捷、SuperMicro以及VMware。自成立以來Greenplum運行EMC的大數(shù)據(jù)業(yè)務。同時在為EMC提供大型企業(yè)客戶定制化產(chǎn)品外也保持與開源Apache Hadoop良好的關系。