如今,云計算的熱潮似乎還沒散去,行業(yè)廠商就已經(jīng)開始關注下一個熱點:大數(shù)據(jù)。而與以往的炒作周期一樣,現(xiàn)在的大數(shù)據(jù)對于用戶來說其來源比較混亂,因為供應商提出了自己獨特的,并且經(jīng)常相互矛盾的定義和術語。
大數(shù)據(jù)定義之所以混亂的最常見的原因,是人們將大數(shù)據(jù)存儲與大數(shù)據(jù)分析的結果混為一談。“大數(shù)據(jù)”一詞起源于開源社區(qū),其開發(fā)和分析過程比傳統(tǒng)的數(shù)據(jù)倉庫速度更快,擴展性更強,并且可以通過網(wǎng)絡在用戶每天產(chǎn)生的大量非結構化數(shù)據(jù)中提取價值。
大數(shù)據(jù)的存儲是相關的,其旨在解決大量的非結構化數(shù)據(jù),助長企業(yè)級的數(shù)據(jù)增長。而擴展NAS和對象存儲這些技術支撐大數(shù)據(jù)存儲,已經(jīng)存在了多年,并且人們對此有著充分的了解。
在一個非常簡單的層面上,大數(shù)據(jù)存儲無非是存儲用于產(chǎn)生大量的非結構化數(shù)據(jù)的應用程序處理的大量數(shù)據(jù)。這包括高清晰度視頻流,油氣勘探,基因組學等數(shù)據(jù)。
一個大型存儲廠商的一位營銷高管表示,其公司正在考慮將“海量數(shù)據(jù)”作為其大數(shù)據(jù)存儲條目的名稱。
大數(shù)據(jù)分析是比較緊急的和多方面的,但IT人員對其理解較少。大數(shù)據(jù)分析發(fā)展過程在歷史上一直受到網(wǎng)絡的推動。然而,大數(shù)據(jù)分析的應用程序正在發(fā)生在所有主要垂直行業(yè)領域,現(xiàn)在的快速增長是一個增長的機會,值得所有供應商進行炒作。
大數(shù)據(jù)分析是快速增長的多樣化的區(qū)域。因此,試圖確定它有什么用可能是無益的。但是,可以識別和鑒定大數(shù)據(jù)分析的技術特征和共同點。這些包括:
·在可擴展性方面,傳統(tǒng)的數(shù)據(jù)倉庫處理速度太慢,而且有限制;
·融合來自多個數(shù)據(jù)源的數(shù)據(jù)的能力,其中包括結構化和非結構化的數(shù)據(jù);
·從數(shù)據(jù)來源獲取信息是至關重要的,其中包括越來越多的移動設備、無線射頻識別技術、網(wǎng)絡,以及自動化技術。
此外,在多樣性大數(shù)據(jù)分析中可以找到至少四個主要發(fā)展片段。這些片段是MapReduce,可擴展的數(shù)據(jù)庫,實時流處理和大數(shù)據(jù)應用。
(1)MapReduce
ApacheHadoop是MapReduce段開始的好地方。Hadoop起源于谷歌公司在2004推出的一份文件,描述了一種用于并行網(wǎng)絡的數(shù)據(jù)處理稱為MapReduce的概念。此后不久,ApacheHadoop的誕生成為一個開源實現(xiàn)MapReduce的過程。周圍的社區(qū)正在快速成長,生產(chǎn)加載項擴展了企業(yè)數(shù)據(jù)中心內的ApacheHadoop的可用性。
Apache的Hadoop的用戶通常在商用服務器建立自己的并行計算集群,各有專門存儲在一個小型磁盤陣列的形式,最近,也開始采用固態(tài)硬盤(SSD)的形式。這些通常被稱為“無共享”架構。而存儲區(qū)域網(wǎng)絡(SAN)和網(wǎng)絡附加存儲(NAS)的可擴展性和彈性,通常被視為缺乏I/O性能,這些集群需要超越標準的數(shù)據(jù)倉庫的能力。因此,Hadoop的存儲是直接連接存儲(DAS)。然而,使用SAN和NAS的“二次”存儲正在成為新興的形式。
一個潛在的Hadoop用戶面臨的采購選擇,從單純的開源到高度商業(yè)化的版本,其范圍內越來越廣泛。Apache的Hadoop和相關的工具都可以免費在ApacheHadoop的網(wǎng)站下載。Cloudera的公司提供了一個商業(yè)版本,其中包括一些Cloudera的插件和支持。其他開放源代碼的變種,如Facebook的distribution,也可以從Cloudera公司獲得。其商業(yè)版本包括MAPR,EMC公司現(xiàn)在將其合并成一個Hadoop應用。
(2)可擴展的數(shù)據(jù)庫
而Hadoop已經(jīng)攫取了大部分的頭條新聞,因為它在數(shù)據(jù)倉庫環(huán)境下具有非結構化數(shù)據(jù)的處理能力,更有向大數(shù)據(jù)分析的發(fā)展空間。
結構化數(shù)據(jù)也得到了大量的關注。一個充滿活力和快速增長的社區(qū)圍繞NoSQL,這是一個開源的、非關系型、分布和橫向擴展的數(shù)據(jù)庫集合的結構,可以滿足網(wǎng)絡規(guī)模的數(shù)據(jù)庫設計的高流量的網(wǎng)站和流媒體的需要。面向文檔的實現(xiàn)包括MongoDB(如“humongous”DB)和Terrastore。
開源社區(qū)所產(chǎn)生的另一種面向分析的數(shù)據(jù)庫是正在開發(fā)使用的scidb,包括環(huán)境觀測和監(jiān)測,射電天文學和地震,等等。
傳統(tǒng)的數(shù)據(jù)倉庫供應商并沒有袖手旁觀。甲骨文公司正在打造其“下一代”大數(shù)據(jù)平臺,將利用其分析平臺和內存計算的實時信息傳遞。Teradata公司最近收購了ASTER數(shù)據(jù)系統(tǒng)公司,將ASTER數(shù)據(jù)的SQLMapReduce添加到其產(chǎn)品組合中。
(3)實時流處理
對于多個數(shù)據(jù)流進行實時分析的StreamSQL從2003年開始使用,然而到現(xiàn)在為止,StreamSQL只能夠滲透到一些比較小的小眾市場,如金融服務,監(jiān)視和通信網(wǎng)絡監(jiān)控等領域。而隨著行業(yè)廠商和用戶對大數(shù)據(jù)的興趣不斷增長,StreamSQL勢必會得到更多的關注和尋找更多的市場機會。