從公司層面上看,以 IBM 為首的 IT 巨頭在收入上遙遙領先; 創(chuàng)業(yè)型公司Cloudera、 Splunk 等的收入與巨頭廠商仍有差距。 2013 年 IBM 大數據業(yè)務收入為 13.68 億美元, HP 和 Dell 的大數據收入分別為 8.69 和 6.52 億美元,排在第二三位。三家公司的大數據業(yè)務均占總體收入的 1%左右。 收入最高的純大數據公司為Palantir( 為政府和金融機構提供數據分析軟件服務), Pivotal(大數據集成產品,提供 Hadoop,內存 SQL 數據庫以及 MPP 等多種服務) 和 Splunk(大規(guī)模機器數據收集,存儲,可視化分析) , 分別為 4.18 億, 3 億, 2.83 億美元。
技術路徑之爭
大數據處理系統(tǒng)一般需要經過 4 個主要環(huán)節(jié),包括數據準備、數據存儲與管理、計算處理、數據分析。
( 1) 數據準備:在進行存儲和處理之前,需要對數據進行清洗、整理,傳統(tǒng)數據處理體系中稱為 ETL( Extracting, Transforming, Loading)過程。
( 2) 數據存儲與管理:大數據存儲系統(tǒng)不僅需要以極低的成本存儲海量數據,還要適應多樣化的非結構化數據管理需求,具備數據格式上的可擴展性。
( 3) 計算處理環(huán)節(jié):海量數據處理要消耗大量的計算資源,對于傳統(tǒng)單機或并行計算技術來說,速度、可擴展性和成本上都難以適應大數據計算分析的新需求。分而治之的分布式計算成為大數據的主流計算架構,但在一些特定場景下的實時性還需要大幅提升。
( 4)數據分析環(huán)節(jié):數據分析環(huán)節(jié)需要從紛繁復雜的數據中發(fā)現規(guī)律提取新的知識,是大數據價值挖掘的關鍵。
大數據解決方案基本可分為兩類, 由主流數據庫廠商主導的傳統(tǒng)方案升級: 數據庫一體機(例如 Oracle ExaData 以及 IBM Netezza 等),以及以開源力量為主的大數據技術( 以 Hadoop 為代表)。 隨著數據的海量化和快速增長的趨勢不斷增強,傳統(tǒng)關系數據庫技術表現出明顯的不足,如何以合理的成本獲得海量數據的高可用性已經成為現代 IT 領域的重大挑戰(zhàn)。 大數據對數據分析、計算和存儲三個環(huán)節(jié)影響較大,需要對技術架構和算法進行重構,是當前和未來一段時間大數據技術創(chuàng)新的焦點。在所有大數據解決方案中,最為引人注目的是由主流數據庫廠商主導的傳統(tǒng)方案升級,以及以開源力量為主的大數據技術。 兩者是相互補充的關系。
目前大數據開源技術中使用最廣的是 Hadoop, 一個能夠對大量數據進行分布式處理的軟件框架。 Hadoop 框架的核心設計是: HDFS 和 MapReduce。 HDFS 為海量的數據提供了存儲, 提供高吞吐量來訪問應用程序的數據,適合那些有著超大數據集的應用程序。 而 MapReduce 為海量的數據提供計算,它將單個任務打碎,并將碎片任務(Map)發(fā)送到多個節(jié)點上,之后再以單個數據集的形式加載(Reduce)到數據倉庫里。 基于以上特點, 用戶可以輕松地在 Hadoop 上開發(fā)和運行處理海量數據的應用程序。
Hadoop 是大數據行業(yè)應用最廣的分布式系統(tǒng)