現(xiàn)在的企業(yè)級IT硬件已經(jīng)變得越來越廉價,一臺非品牌服務器,2顆24核CPU,配48G內(nèi)存,2T的硬盤,不到2萬塊人民幣就能搞定。這種配置如果簡單地放幾個web應用,顯然是奢侈的浪費。就算是用來實現(xiàn)單節(jié)點的hadoop,對計算資源浪費也是非常高的。對于這么高性能的計算機,如何有效利用計算資源,就成為成本控制的一項重要議題了。
通過虛擬化技術,我們可以將一臺服務器,拆分成12臺VPS,每臺2核CPU,4G內(nèi)存,40G硬盤,并且支持資源重新分配。那如果我們擁有12個節(jié)點的Hadoop集群,如何能夠讓它更好地跑在云端呢?
作為Apache Hadoop的最快速、最便捷、最安全的數(shù)據(jù)管理和分析平臺,以及最新開源技術的提供者,Cloudera于一個月前宣布增加了對Spark SQL和MLiB與Cloudera Enterprise 5.5 和 CDH 5.5集成的支持。在過去的一年中,兩者已經(jīng)在可用性和交互操作性上取得重大成績。
近日,Cloudera又發(fā)布了大數(shù)據(jù)部署和管理工具Cloudera Director 2.0。Cloudera方面表示,新版Cloudera Director簡化了在云端執(zhí)行Hadoop的工作,例如ETL(Extract、Transform、Load)、建立數(shù)據(jù)流模型(Modeling)、商業(yè)智能(Business Intelligence,BI)和分析,以及應用程序遞送等。目前Cloudera Director 2.0已開放免費下載。
據(jù)悉,Cloudera Director 2.0能夠提供自動工作提交功能,加速特定查詢的硬件資源請求和釋放基礎設施的資源分配,且不需手動管理叢及生命周期。此外,也提供客制化模板和設定,讓使用者便于管理且可以重復部署。
另外,Cloudera也與Amazon AWS服務、Google云端平臺(Google Cloud Platform,GCP)和微軟Aazure合作,提供Cloudera Director支持混合的作業(yè)環(huán)境,以及Cloudera Director也支持開放云端連接器(Open Cloud Connector),可以和私有云整合。
具體到合作方面,新版Cloudera Director可支持AWS Spot Instance、Google虛擬機云端服務Preemptible VM、在Amazon S3上的Apache Hive和Apache Spark等,以降低基礎設施的作業(yè)成本,來提升如ETL的工作量。另外,使用者可以透過Azure市集在Azure上部署Cloudera企業(yè)版。
此外,Cloudera Director 2.0新增集群復制(Clone)和集群修復功能,在不影響用戶日常作業(yè)的情況下,來增加使用者數(shù)量和修復集群。而在應用程序遞送工作方面,Cloudera Director在引導工作流程中整合高可用性和Kerberos驗證設定,來簡化應用程序遞送的工作。