由于具備低成本和前所未有的高擴展性,Hadoop已被公認為是新一代的大數(shù)據(jù)處理平臺。就像30年前SQL(Structured Query Language)出現(xiàn)一樣,Hadoop正帶來了新一輪的數(shù)據(jù)革命。如今Hadoop已從初出茅廬的小象變成了行業(yè)的巨人,但Hadoop仍需繼續(xù)完善。
基于Java語言構(gòu)建的Hadoop框架實際上一種分布式處理大數(shù)據(jù)平臺,其包括軟件和眾多子項目。在近十年中Hadoop已成為大數(shù)據(jù)革命的中心。MapReduce作為Hadoop的核心是一種處理大型及超大型數(shù)據(jù)集(TB級別的數(shù)據(jù)。包括網(wǎng)絡(luò)點擊產(chǎn)生的流數(shù)據(jù)、日志文件、社交網(wǎng)絡(luò)等所帶來的數(shù)據(jù))并生成相關(guān)的執(zhí)行的編程模型。其主要思想是從函數(shù)式編程語言借鑒而來的,同時也包含了從矢量編程語言借鑒的特性。
互聯(lián)網(wǎng)巨頭Yahoo!作為Hadoop框架的先驅(qū)研究者,在6年時間已經(jīng)將Hadoop塑造成了極為成功的技術(shù)。但相比于SQL,Hadoop在某些方面仍然顯得不夠完善。這直接導(dǎo)致現(xiàn)今所有目光都集中在Hadoop供應(yīng)商的身上。包括Amazon、Cloudera等公司帶來眾多的創(chuàng)新并提供強大的工具。Cloudera推出的CHD3包含眾多的附加軟件,可以幫助管理、運行Hadoop上的復(fù)雜任務(wù),例如:Apache Mahout、Flume、Sqoop、Pig、Oozie、Hive、HBase、ZooKeeper、Whirr等。同時Cloudera也是目前最大的提供企業(yè)Hadoop技術(shù)支持和培訓(xùn)的廠商。而Amazon是較早在公共云中運行Hadoop的公司,其提供的基于MapReduce的彈性計算可提供海量的數(shù)據(jù)計算服務(wù)。
但數(shù)據(jù)處理只是大數(shù)據(jù)處理的一部分,組織最終想要得到的是經(jīng)過分析后的有價值的數(shù)據(jù)。商業(yè)智能和數(shù)據(jù)分析廠商如Datameer、Hadapt以及Karmasphere就顯的不可或缺。
Hadoop在2011年證明自神的價值,最明顯的跡象就是五大數(shù)據(jù)庫管理軟件供應(yīng)商EMC、IBM、Informatica、Microsoft以及Oracle都投入了Hadoop的懷抱。EMC與MapR展開合作,而Microsoft和Oracle則分別與Hortonworks和Cloudera展開了合作。而EMC和Oracle已經(jīng)推出了Hadoop專有設(shè)備。下面就讓我們來看一下Hadoop在大數(shù)據(jù)領(lǐng)域都俘虜了那些公司的心。
Amazon基于MapReduce的服務(wù)
Amazon早在2009年就推出了基于Hadoop MapReduce的EC2(Elastic Compute Cloud)服務(wù)。因此Amazon在應(yīng)對用戶應(yīng)用和需求上顯得胸有成竹。無論是中小型企業(yè)還是超大型的組織,基于MapReduce的EC2服務(wù)都經(jīng)受住了考驗。同時AWS(Amazon Web Service)還包括Amazon S3(Simple storage Service)。Amazon S3可提供高伸縮性、靠可靠性、高可用性以及極低的存儲成本。利用AWS可高效的處理數(shù)據(jù)密集型的任務(wù),如Web索引、數(shù)據(jù)挖掘、日志文件分析、機器學(xué)習(xí)以及科技和生物信息的學(xué)術(shù)研究。