許多公司已經(jīng)在充分利用混合事務/分析處理(HTAP);比如說,零售商能夠迅速識別在過去一小時內最暢銷的時尚商品,并立即為該商品定制優(yōu)惠促銷活動。
但是HTAP方面炒作得很厲害,許多公司一直在過度使用它。如果用戶需要在一天內多次以同一方式查看同一數(shù)據(jù),數(shù)據(jù)又沒有什么顯著的變化,那么使用內存中技術是浪費錢。雖然你可以使用HTAP更快地執(zhí)行分析,但所有事務必須駐留在同一個數(shù)據(jù)庫中。問題是,今天的大多數(shù)分析工作是把來自許多不同系統(tǒng)的事務集中起來。
云計算
混合云和公共云服務越來越受歡迎。大數(shù)據(jù)成功的關鍵是在彈性基礎設施上運行(Hadoop)平臺。
我們會看到數(shù)據(jù)存儲和分析趨于融合,帶來新的更智能的存儲系統(tǒng),它們將經(jīng)過優(yōu)化,用于存儲、管理和排序龐大的PB級數(shù)據(jù)集。展望未來,我們可以預計會看到基于云的大數(shù)據(jù)生態(tài)系統(tǒng)在整個繼續(xù)迎來發(fā)展,不僅僅局限于“早期采用者”。
許多公司想要讓自己可以擴展的平臺,通過大力投資于最終僵化的數(shù)據(jù)中心是不可能做到這點的。比如說,人類基因組計劃一開始是個GB級項目,但是很快達到了TB級和PB級。一些領先的企業(yè)已經(jīng)開始以雙模(bi-modal)方式來拆分工作負載,在云端運行一些數(shù)據(jù)工作負載。許多人預計,隨著這種解決方案在采用周期上深入發(fā)展,這個潮流會加快發(fā)展。
現(xiàn)在大家很重視API,以一種可重用的方式來發(fā)掘數(shù)據(jù)和功能,許多公司期望在云端和數(shù)據(jù)中心運行其API。本地API提供了一種無縫的方式來發(fā)掘傳統(tǒng)系統(tǒng),并將它們與云應用程序連接起來,這對于希望實現(xiàn)云優(yōu)先戰(zhàn)略的公司來說至關重要。
更多的公司會在云端運行API,提供彈性,以便更好地應對需求高峰,并建立高效的連接,從而讓它們能夠比競爭對手更迅速地適應和創(chuàng)新。
Apache Spark
Apache Spark在點亮大數(shù)據(jù)。流行的Apache Spark項目提供了Spark Streaming技術,通過主要采用一種在內存中微批量處理的方法,近實時地處理數(shù)據(jù)流。它已從Hadoop生態(tài)系統(tǒng)的一部分,變成許多企業(yè)青睞的一種大數(shù)據(jù)平臺。
Spark現(xiàn)在是最龐大的大數(shù)據(jù)開源項目,相比Hadoop它提供了顯著加快的數(shù)據(jù)處理速度;因此,對于程序員來說極其自然、極加精確、極其方便。它為并行執(zhí)行提供了一種高效的通用框架。
Spark Streaming是Spark的主要部分,被用來借助處理器核心,流式傳輸大塊的數(shù)據(jù),為此將大數(shù)據(jù)分割成更小的數(shù)據(jù)包,然后對其進行轉換,因而加快彈性分布式數(shù)據(jù)集(RDD)的創(chuàng)建。這在當下非常有用,如今數(shù)據(jù)分析通常需要一組協(xié)同運行的機器的資源。
然而值得一提的是,Spark旨在改進而不是替換Hadoop架構。為了從大數(shù)據(jù)獲得更大的價值,許多公司考慮結合使用Hadoop和Spark,以獲得更好的分析和存儲功能。
越來越復雜的大數(shù)據(jù)需求意味著,創(chuàng)新的壓力仍然會很高。許多公司會開始明白,客戶的成功離不開數(shù)據(jù)方面的工作。不利用數(shù)據(jù)分析的公司會開始歇業(yè),而成功的企業(yè)認識到發(fā)展的關鍵是數(shù)據(jù)精煉和預測分析。