大數(shù)據(jù)的泡沫在毫無止境的膨脹,它給IT企業(yè)帶來了顛覆性的改革。 Hortonworks的CEO Eric Baldeschwieler表示,目前企業(yè)中80%的數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù)。更為雷人的是這些數(shù)據(jù)在以60%的速度呈現(xiàn)指數(shù)級增長,到2020年,全球數(shù)據(jù)使用量預(yù)計將暴增44倍,達(dá)到35.2ZB(1ZB=10億TB)。大數(shù)據(jù)的急劇蔓延使得企業(yè)在存儲架構(gòu)方面逐漸面臨著史無前例的考驗(yàn),由此引發(fā)了數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、商業(yè)智能、云計算等應(yīng)用的一連串連鎖反應(yīng)。
據(jù)最新消息,微軟正在研發(fā)一種連接器,即Excel用戶能訪問Hadoop大數(shù)據(jù)處理結(jié)果。而Hortonworks希望把它變成NoSQL到SQL的的通用連接器,在開源社區(qū)推而廣之。
大數(shù)據(jù)膨脹催生了微軟等巨頭紛紛擁抱Hadoop
各大企業(yè)巨頭紛紛有所行動,雅虎、AOL、谷歌、Facebook等早期采用并使用Hadoop來存儲和分析PB級別的非結(jié)構(gòu)化數(shù)據(jù)。IBM也在在 SmartCloud 平臺上新增基于 Apache Hadoop 的服務(wù) InfoSphere BigInsights 分析軟件。Oracle的Big Data機(jī)采用了NoSQL數(shù)據(jù)庫和Hadoop框架。EMC也推出了世界上第一個定制的、高性能的Hadoop專用數(shù)據(jù)協(xié)同處理設(shè)備——Greenplum HD數(shù)據(jù)計算設(shè)備。Google 的網(wǎng)絡(luò)搜索引擎在得益于算法發(fā)揮作用的同時,Hadoop的核心MapReduce 在后臺發(fā)揮了極大的作用。億貝的Hadoop系統(tǒng)能夠很好地處理大規(guī)模非結(jié)構(gòu)化數(shù)據(jù),高效處理用戶郵件數(shù)據(jù)。
Hadoop核心框架MapReduce工作原理
與各大巨頭相比,微軟更是耐不住寂寞,它與Hortonworks達(dá)成合作,致力于將Hadoop打造成用于存儲和處理數(shù)據(jù)的引人注目的平臺。Windows和Hadoop的結(jié)合將是非常具有吸引力的,這將吸引大量的Windows用戶。顯然微軟具有在此領(lǐng)域競爭的實(shí)力,優(yōu)化和調(diào)整是確保其成功的重要因素。
微軟捷足先登 不斷強(qiáng)化開源Hadoop框架的支持
大數(shù)據(jù)的浪潮一浪高過一浪,企業(yè)廝殺角逐越發(fā)激烈,微軟邁出的步伐似乎更快,發(fā)力更猛。Hadoop可謂是開源創(chuàng)新領(lǐng)域的杰出典范,微軟對Hadoop的支持更應(yīng)該被看作極具轉(zhuǎn)折式的決策。
首先,早在2006年起微軟就捷足先登,致力于研發(fā)某種非常類似于Hadoop的項目,被稱為“Dryad”。
2011年年初,該計劃通過與SQL Server和Windows Azure云的集成實(shí)現(xiàn)了Dryad的產(chǎn)品化。雖然現(xiàn)在微軟還沒有更新,但看上去Dryad似乎將成為在SQL Server平臺上影響大數(shù)據(jù)愛好者的有力競爭者。
其次,微軟早在2011年3月份就發(fā)布了數(shù)據(jù)庫系統(tǒng)Trinity. Trinity是一款NoSQL數(shù)據(jù)庫,同時也是一個基于內(nèi)存的數(shù)據(jù)存儲與運(yùn)算系統(tǒng)。Trinity包括一個圖結(jié)構(gòu)數(shù)據(jù)庫(提供實(shí)時查詢與后臺批量計算任務(wù),類似于Map/Reduce,同時支持ACI的事物并提供C#的客戶端API)和一個并行計算系統(tǒng)。目前在微軟為Probase和AEther這兩個產(chǎn)品服務(wù)。
此外,2011年8月微軟就增加了SQL Server在大規(guī)模數(shù)據(jù)處理和并行數(shù)據(jù)倉庫平臺對開源Hadoop框架的支持。微軟已經(jīng)將Hadoop嵌入到了生態(tài)系統(tǒng)中,并且發(fā)布了SQL Server的Hadoop連接器,此外,還推出了基于Hadoop的Windows Azure預(yù)覽版,該連接器的最終版本已提供下載。這兩個連接器采用SQL to Hadoop (SQOOP)技術(shù),在Hadoop File System (HDFS)和微軟關(guān)系數(shù)據(jù)庫之間有效地傳輸數(shù)據(jù)。通過這個連接器,用戶可以在Hadoop中分析非結(jié)構(gòu)化數(shù)據(jù),然后遷移到SQL Server環(huán)境中進(jìn)行數(shù)據(jù)分析。
SQL Server的Hadoop連接器
用戶需要將SQL Server Hadoop連接器部署到Hadoop集群的主節(jié)點(diǎn)。主節(jié)點(diǎn)還需要安裝Sqoop和微軟的Java數(shù)據(jù)庫連接驅(qū)動。Sqoop是一個開源命令行工具,用來從關(guān)系型數(shù)據(jù)庫導(dǎo)入數(shù)據(jù),并使用Hadoop MapReduce框架進(jìn)行數(shù)據(jù)轉(zhuǎn)換,然后將數(shù)據(jù)重新導(dǎo)回數(shù)據(jù)庫當(dāng)中。