當數(shù)據(jù)以成百上千TB不斷增長的時候,我們需要一種獨特技術來應對這種前所未有的挑戰(zhàn)。
大數(shù)據(jù)分析迎來大時代
全球各行各業(yè)的組織機構已經(jīng)意識到,最準確的商務決策來自于事實,而不是憑空臆想。這也就意味著,他們需要在內(nèi)部交易系統(tǒng)的歷史信息之外,采用基于數(shù)據(jù)分析的決策模型和技術支持。互聯(lián)網(wǎng)點擊數(shù)據(jù)、傳感數(shù)據(jù)、日志文件、具有豐富地理空間信息的移動數(shù)據(jù)和涉及網(wǎng)絡的各類評論,成為了海量信息的多種形式。
極具挑戰(zhàn)性的是,傳統(tǒng)的數(shù)據(jù)庫部署不能處理數(shù)TB數(shù)據(jù),也不能很好的支持高級別的數(shù)據(jù)分析。在過去十幾年中,大規(guī)模并行處理(MPP)平臺和列存儲數(shù)據(jù)庫開啟了新一輪數(shù)據(jù)分析史上的革命。而且近年來技術不斷發(fā)展,我們開始看到,技術升級帶來的已知架構之間的界限變得更加模糊。更為重要的是,開始逐步出現(xiàn)了處理半結(jié)構化和非結(jié)構化信息的NoSQL等平臺。
大數(shù)據(jù)分析迎來大時代
本文中,我們將向大家介紹迄今為止,包括EMC的Greenplum、Hadoop和MapReduce等提供大數(shù)據(jù)分析的產(chǎn)品。此外,惠普前段時間收購實時分析平臺Vertica、IBM獨立的基于DB2智能分析系統(tǒng)和Netezza的相關產(chǎn)品。當然,也有微軟的Parallel Data Warehouse、SAP旗下公司Sybase的Sybase IQ數(shù)據(jù)倉庫分析工具等。下面,就讓我們來了解業(yè)界大數(shù)據(jù)分析的這十二大產(chǎn)品:
1.模塊化EMC Appliance處理多種數(shù)據(jù)類型
2010年EMC收購了Greenplum,隨后,利用EMC自身存儲硬件和支持復制與備份功能的Greenplum大規(guī)模并行處理(MPP)數(shù)據(jù)庫,推出了EMC Greenplum Data Computing Appliance (DCA)。通過與SAS和MapR等合作伙伴,DCA擴大了對Greenplum的數(shù)據(jù)庫支持 。
支持大數(shù)據(jù)分析的EMC Appliance
今年5月,EMC推出了自己的Hadoop軟件工具,而且該公司還承諾,今年秋季發(fā)布的模塊化DCA將支持Greenplum SQL/關系型數(shù)據(jù)庫,Hadoop部署也能在同樣的設備上得到支持。借助Hadoop,EMC能夠解決諸如網(wǎng)絡點擊數(shù)據(jù)、非結(jié)構數(shù)據(jù)等真正大數(shù)據(jù)分析的困難。模塊化的DCA也能夠在同樣的設備上支持長期保留的高容量的存儲模塊,從而滿足監(jiān)測需求。
2.Hadoop和MapReduce提煉大數(shù)據(jù)
Hadoop是一個開放源碼的分布式數(shù)據(jù)處理系統(tǒng)架構,主要面向存儲和處理結(jié)構化、半結(jié)構化或非結(jié)構化、真正意義上的大數(shù)據(jù)(通常成百上千的TB甚至PB級別數(shù)據(jù))應用。網(wǎng)絡點擊和社交媒體分析應用,正在極大地推動應用需求。Hadoop提供的MapReduce(和其他一些環(huán)境)是處理大數(shù)據(jù)集理想解決方案。
MapReduce能將大數(shù)據(jù)問題分解成多個子問題,將它們分配到成百上千個處理節(jié)點之上,然后將結(jié)果匯集到一個小數(shù)據(jù)集當中,從而更容易分析得出最后的結(jié)果。
MapReduce結(jié)構圖
Hadoop可以運行在低成本的硬件產(chǎn)品之上,通過擴展可以成為商業(yè)存儲和數(shù)據(jù)分析的替代方案。它已經(jīng)成為很多互聯(lián)網(wǎng)巨頭,比如AOL、eHarmony(美國在線約會網(wǎng)站)、易趣、Facebook、Twitter和Netflix大數(shù)據(jù)分析的主要解決方案。也有更多傳統(tǒng)的巨頭公司比如摩根大通銀行,也正在考慮采用這一解決方案。
3.惠普Vertica電子商務分析
今年二月被惠普收購的Vertica,是能提供高效數(shù)據(jù)存儲和快速查詢的列存儲數(shù)據(jù)庫實時分析平臺。相比傳統(tǒng)的關系數(shù)據(jù)庫,更低的維護和運營成本,就可以獲得更快速的部署、運行和維護。該數(shù)據(jù)庫還支持大規(guī)模并行處理(MPP)。在收購之后,惠普隨即推出了基于x86硬件的HP Vertica。通過MPP的擴展性可以讓Vertica為高端數(shù)字營銷、電子商務客戶(比如AOL、Twitter、 Groupon)分析處理的數(shù)據(jù)達到PB級。
惠普Vertica實時分析平臺