大數(shù)據(jù)的泡沫在毫無(wú)止境的膨脹,它給IT企業(yè)帶來(lái)了顛覆性的改革。 Hortonworks的CEO Eric Baldeschwieler表示,目前企業(yè)中80%的數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù)。更為雷人的是這些數(shù)據(jù)在以60%的速度呈現(xiàn)指數(shù)級(jí)增長(zhǎng),到2020年,全球數(shù)據(jù)使用量預(yù)計(jì)將暴增44倍,達(dá)到35.2ZB(1ZB=10億TB)。大數(shù)據(jù)的急劇蔓延使得企業(yè)在存儲(chǔ)架構(gòu)方面逐漸面臨著史無(wú)前例的考驗(yàn),由此引發(fā)了數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘、商業(yè)智能、云計(jì)算等應(yīng)用的一連串連鎖反應(yīng)。
據(jù)最新消息,微軟正在研發(fā)一種連接器,即Excel用戶(hù)能訪(fǎng)問(wèn)Hadoop大數(shù)據(jù)處理結(jié)果。而Hortonworks希望把它變成NoSQL到SQL的的通用連接器,在開(kāi)源社區(qū)推而廣之。
大數(shù)據(jù)膨脹催生了微軟等巨頭紛紛擁抱Hadoop
各大企業(yè)巨頭紛紛有所行動(dòng),雅虎、AOL、谷歌、Facebook等早期采用并使用Hadoop來(lái)存儲(chǔ)和分析PB級(jí)別的非結(jié)構(gòu)化數(shù)據(jù)。IBM也在在 SmartCloud 平臺(tái)上新增基于 Apache Hadoop 的服務(wù) InfoSphere BigInsights 分析軟件。Oracle的Big Data機(jī)采用了NoSQL數(shù)據(jù)庫(kù)和Hadoop框架。EMC也推出了世界上第一個(gè)定制的、高性能的Hadoop專(zhuān)用數(shù)據(jù)協(xié)同處理設(shè)備——Greenplum HD數(shù)據(jù)計(jì)算設(shè)備。Google 的網(wǎng)絡(luò)搜索引擎在得益于算法發(fā)揮作用的同時(shí),Hadoop的核心MapReduce 在后臺(tái)發(fā)揮了極大的作用。億貝的Hadoop系統(tǒng)能夠很好地處理大規(guī)模非結(jié)構(gòu)化數(shù)據(jù),高效處理用戶(hù)郵件數(shù)據(jù)。
Hadoop核心框架MapReduce工作原理
與各大巨頭相比,微軟更是耐不住寂寞,它與Hortonworks達(dá)成合作,致力于將Hadoop打造成用于存儲(chǔ)和處理數(shù)據(jù)的引人注目的平臺(tái)。Windows和Hadoop的結(jié)合將是非常具有吸引力的,這將吸引大量的Windows用戶(hù)。顯然微軟具有在此領(lǐng)域競(jìng)爭(zhēng)的實(shí)力,優(yōu)化和調(diào)整是確保其成功的重要因素。