據(jù)2011 TDWI的一份調(diào)查,目前34%的企業(yè)通過大數(shù)據(jù)分析來制定決策。Amazon、Cloudera和IBM都發(fā)布了它們的Hadoop-as-a-Service產(chǎn)品,Microsoft的類似產(chǎn)品也將在明年問世。由此可見,大數(shù)據(jù)和Hadoop的發(fā)展勢頭越演越烈,未來也會變得越來越重要。
早在2009年,Amazon就推出了AWS Elastic MapReduce,支持在EC2和S3上運行Apache Hadoop。該服務(wù)提供了大數(shù)據(jù)分析所需的最基本的硬件和軟件。
時隔不久, Cloudera推波助瀾,發(fā)布了CDH3。這是基于Amazon的MapReduce上,經(jīng)過調(diào)優(yōu)后的Hadoop AMI。由于CDH3集成了大量的附加軟件,所以可以用來處理Hadoop任務(wù)。
而迄今為止,最為成熟的解決方案的桂冠當(dāng)屬IBM,IBM推出了基于Watson技術(shù)的InfoSphere BigInsights軟件,它可以在SmartCloud Enterprise上運行Hadoop。這并不僅僅是一個運行大數(shù)據(jù)任務(wù)的平臺,還同時提供了分析數(shù)據(jù)的能力。這是處理問題過程中最為復(fù)雜的部分之一。它還包含以下多種開源項目:
- Jaql:基于JavaScript Object Notation(JSON)的高級查詢語言,它也支持SQL。
- Hive:用于支持Hadoop文件的批量查詢和分析的數(shù)據(jù)倉庫基礎(chǔ)設(shè)施。
- HBase:用于在Hadoop中支持大型稀疏表的列存儲數(shù)據(jù)環(huán)境。
- Flume:收集數(shù)據(jù)并將其加載到Hadoop中的設(shè)施。
最近在PASS Summit 2011上,微軟這個軟件巨頭也向Hadoop敞開了懷抱。微軟宣布將從鼻祖雅虎分拆出來的Hortonworks合作開發(fā),在Apache Hadoop上實現(xiàn)搭建Windows Server以及Windows Azure平臺,期待在 SQL Server 2012 中集成開源的 Apache Hadoop,從而提供大數(shù)據(jù)處理功能。為了讓Apache Hadoop 成為存儲和處理數(shù)據(jù)的引人注目的平臺,微軟計劃在2011年末提供基于 Azure 的 Hadoop 服務(wù),并在2012年的某個時間提供基于 Windows 的分布式服務(wù)。
EMC及Intel、Mellanox Technologies、Micron、Seagate、SuperMicro、Switch和VMware這些合作伙伴一同推出了另一個解決方案EMC Greenplum Analytics Workbench,它提供了一個超過10000虛擬節(jié)點和24 PB存儲容量的平臺,主要用于測試Hadoop。
在拉斯維加斯舉辦的IOD2011大會上,DataMeer公司展示了該公司基于Hadoop平臺的產(chǎn)品方案DAS。“很多公司也推出了基于Hadoop的產(chǎn)品,但他們都需要一個連接器(Connector),而用我們公司的方案可以直接體驗Hadoop架構(gòu)的高效便捷。” DataMeer公司業(yè)務(wù)發(fā)展總監(jiān)常悅表示。
總之,各大巨頭在Hadoop方面的投資都非常活躍,呈現(xiàn)遍地開花的形式。而以Hadoop為標(biāo)桿的大規(guī)模數(shù)據(jù)處理(BigData Processing)技術(shù)的日趨成熟,使得企業(yè)由“業(yè)務(wù)為王”紛紛轉(zhuǎn)向“數(shù)據(jù)為王”轉(zhuǎn)變。