Streamsql是生長計(jì)算研究的一個區(qū)域稱為復(fù)雜事件處理(CEP),對真實(shí)世界的事件數(shù)據(jù)的低延遲處理技術(shù)。無論是IBM,還是InfoSphereStreams公司,以及StreamBase系統(tǒng)公司的產(chǎn)品都在這個領(lǐng)域中。
(4)大數(shù)據(jù)應(yīng)用
作為大數(shù)據(jù)分析的興趣擴(kuò)展到企業(yè)數(shù)據(jù)中心,供應(yīng)商群體看到了一個機(jī)會,把一起大數(shù)據(jù)“家電”。這些設(shè)備的服務(wù)器,網(wǎng)絡(luò)和存儲設(shè)備集成到加速信息傳遞到一個機(jī)箱和運(yùn)行分析軟件用戶。這些設(shè)備針對企業(yè)買家都會看重大數(shù)據(jù)設(shè)備易用性和價值,以及其固有的實(shí)施和使用的特點(diǎn)而推出的。圍繞Greenplum數(shù)據(jù)庫引擎這個領(lǐng)域的廠商,其中包括EMC公司,IBM和Netezza公司,MAPR公司最近推出了Hadoop商業(yè)化版本,預(yù)集成系統(tǒng),內(nèi)置設(shè)備,可與甲骨文和Teradata公司的版本相媲美。
大數(shù)據(jù)分析的大數(shù)據(jù)存儲
大數(shù)據(jù)分析過程的從業(yè)人員一般都不喜歡共享存儲。他們喜歡DAS的各種形式,從SSD到其內(nèi)部并行處理節(jié)點(diǎn)的高容量的SATA硬盤。共享存儲體系結(jié)構(gòu),如SAN和NAS,通常被認(rèn)為是相對緩慢的復(fù)雜的,首先,是其價格昂貴。這些特點(diǎn)都不選用于大數(shù)據(jù)分析系統(tǒng)的系統(tǒng)性能,不能滿足商品基礎(chǔ)設(shè)施的低成本的蓬勃發(fā)展。
實(shí)時或接近實(shí)時信息傳遞是大數(shù)據(jù)分析的定義特征之一,因此,延遲是可以避免的,無論何時何地。在內(nèi)存中的數(shù)據(jù)是良好的,至少比采用光纖傳輸?shù)綑C(jī)械式硬盤要好,但也許比其他任何事情都更加糟糕,SAN在規(guī)模需要分析應(yīng)用的成本讓人望而卻步。
在大數(shù)據(jù)分析中,有一個共享存儲的案例。然而,存儲廠商和一般的存儲社區(qū)還沒有成為大數(shù)據(jù)分析的實(shí)踐者。這個例子可以在ParAccel的分析數(shù)據(jù)庫(PADB)與NetAppSAN存儲中看到。
數(shù)據(jù)存儲技術(shù)的開發(fā)人員表示將存儲看作從物理設(shè)備遷移到一個更虛擬和抽象的實(shí)體的實(shí)現(xiàn)。其結(jié)果是,共享存儲環(huán)境可以并且應(yīng)該被大數(shù)據(jù)從業(yè)者視為他們可以找到潛在有價值的數(shù)據(jù)服務(wù),如:
(1)數(shù)據(jù)保護(hù)和系統(tǒng)可用性:基于存儲的復(fù)制功能可以不需要數(shù)據(jù)庫創(chuàng)建數(shù)據(jù)副本,當(dāng)系統(tǒng)故障和數(shù)據(jù)損壞事件發(fā)生時,重新啟動可以恢復(fù)系統(tǒng)。
(2)縮短部署新應(yīng)用程序和自動化流程的時間:通過可重復(fù)使用的數(shù)據(jù)副本,當(dāng)新的應(yīng)用程序都可以在網(wǎng)上迅速被建立,提高業(yè)務(wù)靈活性。
(3)變更管理:共享存儲可以幫助保持一個“永遠(yuǎn)在線”的能力,可能減少所需的改變和升級,以及對在線生產(chǎn)環(huán)境的影響。
(4)生命周期管理:當(dāng)共享存儲可以作為記錄的數(shù)據(jù)庫時,系統(tǒng)的演化變得更加容易管理,并且那些已經(jīng)廢棄的應(yīng)用變得更加容易丟棄。
(5)節(jié)約成本:使用共享存儲作為一個無共享架構(gòu),可以輔助DAS降低成本和處理器節(jié)點(diǎn)的復(fù)雜性。
以上提到的好處每個人都可以被映射到無共享架構(gòu)的分析。我們可以期望看到更多的存儲廠商這樣做一段時間。例如,雖然尚未公布,EMC公司可以憑借其基于MAPR設(shè)備整合Isilon或Atmos公司的存儲。
大數(shù)據(jù)是一個大問題
傳統(tǒng)的數(shù)據(jù)倉庫是一個大而相對較慢的生產(chǎn)商信息的業(yè)務(wù)分析。它從有限的數(shù)據(jù)資源,并依賴于反復(fù)的提取、轉(zhuǎn)換和加載(ETL)過程??蛻粼诳焖賹ふ耀@取信息的基礎(chǔ)上,從多個數(shù)據(jù)源同時淘汰掘金。大數(shù)據(jù)分析可以被定義,在一定程度上,需要從多個數(shù)據(jù)源解析大數(shù)據(jù)集,并產(chǎn)生實(shí)時或接近實(shí)時的信息。
大數(shù)據(jù)分析代表了一個巨大的機(jī)會。IT組織都在探索上述來自社交網(wǎng)絡(luò)的繁榮,解析基于網(wǎng)絡(luò)的數(shù)據(jù)源和提取價值分析技術(shù)。然而,現(xiàn)在有了一個更大的機(jī)會,那就是物聯(lián)網(wǎng)成為了一種新興的數(shù)據(jù)源。思科系統(tǒng)公司估計(jì)全球目前約有350億個可以連接到互聯(lián)網(wǎng)的電子設(shè)備。任何電子設(shè)備可以(有線或無線)連接到互聯(lián)網(wǎng),甚至汽車制造商正在建設(shè)連接到車輛的互聯(lián)網(wǎng)。“連接的”汽車將在2020年成為司空見慣的事情,并產(chǎn)生數(shù)以百萬計(jì)的瞬態(tài)數(shù)據(jù)流。
理解大數(shù)據(jù)分析
利用多個數(shù)據(jù)源,如物聯(lián)網(wǎng)的力量將會遠(yuǎn)遠(yuǎn)超出傳統(tǒng)的數(shù)據(jù)倉庫技術(shù)。這將需要模仿人類大腦功能的過程。我們的大腦需要大量的感官數(shù)據(jù)流,并創(chuàng)建必要的相關(guān)關(guān)系,讓我們知道我們在哪里,我們在做什么,最終我們在想什么,所有這些都是實(shí)時的。