如今,公司越來越多地依賴大數(shù)據(jù)進(jìn)行決策。Amazon、Cloudera和IBM都發(fā)布了它們的Hadoop-as-a-Service產(chǎn)品,Microsoft的類似產(chǎn)品也將在明年問世。
Amazon是最早推出AWS Elastic MapReduce的,可以追溯到2009年,在EC2和S3上運行Apache Hadoop。同Amazon的其他IaaS產(chǎn)品一樣,這項服務(wù)提供了大數(shù)據(jù)分析所需的最基本的硬件和軟件,把很多配置和編程的工作留給了客戶,這需要不少專業(yè)知識。假定公司有這樣的能力,它可以成功配置并運行Hadoop任務(wù),就像New York Times一樣,以相當(dāng)?shù)土膬r格,在100個Amazon EC2實例上運行了一個24小時的Hadoop任務(wù),將內(nèi)容為1851年到1922年發(fā)表的公開文章的1100萬張圖片轉(zhuǎn)換成了1.5TB的PDF文檔。
Cloudera將Amazon的MapReduce服務(wù)又超正確的方向上推進(jìn)了一步,推出了CDH3,這是一個調(diào)優(yōu)過的Hadoop AMI,包含很多附加軟件,可以幫助管理、運行Hadoop上的復(fù)雜任務(wù),例如:Apache Mahout、Flume、Sqoop、Pig、Oozie、Hive、HBase、ZooKeeper、Whirr等等,其中大多數(shù)都是開源項目。但是目前還是有些問題,仍然需要大量的專業(yè)知識,安裝、配置一些東西,CDH3安裝指南(PDF)還是有不下175頁的篇幅是在說明如何從基礎(chǔ)開始,對JDK、CDH3、Snappy以及系統(tǒng)的其他部分進(jìn)行配置的。
Microsoft最近在PASS Summit 2011上宣布他們會在Windows Azure和SQL Server中整合Hadoop-as-a-Service服務(wù),在2012年提供給那些在其平臺上處理大數(shù)據(jù)的公司。目前還沒有太多的細(xì)節(jié),只知道Microsoft 承諾會保持與Apache Hadoop的兼容性,并且將代碼貢獻(xiàn)給開源項目。他們還提供了一個基于Sqoop的SQL Server-Hadoop Connector,這讓SQL數(shù)據(jù)表與Hadoop的HDFS之間的雙向數(shù)據(jù)傳輸成為可能,因為Hadoop需要將數(shù)據(jù)保存在自己的文件系統(tǒng)中以保證能夠高效地處理大量的數(shù)據(jù)。
IBM也發(fā)布了自己的產(chǎn)品,使用IBM InfoSphere BigInsights軟件,在SmartCloud Enterprise上運行Hadoop。BigInsights有兩個版本,基礎(chǔ)版是免費的,非常適合項目評估,企業(yè)版用于生產(chǎn)環(huán)境。IBM的解決方案是迄今為止看起來最為成熟的,基于Watson技術(shù),這是一個AI系統(tǒng),它打敗了兩名今年的Jeopardy!最佳選手(譯注:Jeopardy!是美國的一個電視智力競猜節(jié)目,比賽問題內(nèi)容涵蓋多個方面,1964年開播至今)。Watson并非在大集群上運行Hadoop來回答問題,而是包含了超過100項技術(shù)來“分析自然語言,識別源數(shù)據(jù),發(fā)現(xiàn)并生成假設(shè),尋找證據(jù)并評分,對假設(shè)做合并和分級”。因此,這并不僅僅是一個運行大數(shù)據(jù)任務(wù)的平臺,它還提供了發(fā)現(xiàn)數(shù)據(jù)并解釋它的能力,這是處理問題的過程中最復(fù)雜的部分之一。
與Cloudera的解決方案類似,IBM的BigInsights包含了Hadoop以外的很多開源項目,例如: