今天關(guān)鍵分析進展的核心是大數(shù)據(jù),它被視為是大量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的集合,大部分是來自于Web應(yīng)用程序、服務(wù)器日志和社交媒體網(wǎng)站。雖然大數(shù)據(jù)應(yīng)用程序常常是與快速發(fā)展的組織有關(guān),這些組織可以快速地對實時數(shù)據(jù)反饋,但大數(shù)據(jù)和實時不一定是同義的。
行業(yè)專家指出大數(shù)據(jù)在休息時與大數(shù)據(jù)在運動時確實存在不同。為了促使它向前發(fā)展,外部的幫助是必要的。
雖然MapReduce和Hadoop是現(xiàn)代化的、分布式的和并行的,但他們這兩個開源技術(shù)都與大數(shù)據(jù)密切相連,都是面向批處理的。這可以會使一些人感到吃驚,但它們經(jīng)常在當(dāng)大數(shù)據(jù)休息之時,也就是說,除非他們是伴隨著相當(dāng)先進的中間件。內(nèi)在數(shù)據(jù)網(wǎng)格或數(shù)據(jù)庫、復(fù)雜事件處理(CEP)引擎和低延遲消息傳遞中間件是應(yīng)用基礎(chǔ)設(shè)施軟件的幾種類型,這種軟件要像架構(gòu)師一樣承擔(dān)起推動大數(shù)據(jù)運動的挑戰(zhàn)。
“快速數(shù)據(jù)(fast data)”不僅只是一項技術(shù),也是一系列的方法,據(jù)英國Ovum 研究集團分析師Tony Baer說。快速數(shù)據(jù)包含高性能,低延遲CEP應(yīng)用,數(shù)據(jù)流在內(nèi)存中進行處理,從而檢測模糊復(fù)雜的模式,Baer今年早些時候在一篇博文中寫到。
隨著用戶對大數(shù)據(jù)越來越熟悉,對于伴隨著這種大規(guī)模信息池的更加高級的消息中間件類型的需求將會增長,根據(jù)Roy Schulte所說,Gartner的分析師。Gartner認(rèn)為CEP對大數(shù)據(jù)很重要,因為它可以快速處理即將出現(xiàn)的數(shù)據(jù),通過暫時把信息存儲在電腦的主要內(nèi)存中。
衡量系統(tǒng)的擴展性
大數(shù)據(jù)代表著典型的計算機I/O問題,這些問題中大量的“輸入”和“輸出”問題是性能的關(guān)鍵瓶頸。通常情況下,在這種問題的處理上有一個趨勢就是拋棄硬件,不一定要好的效果。Hadoop框架就是一個例子。
“人們討論擴展性,但就不討論關(guān)于Hadoop性能方面的事,”Michael Kopp說,他是底特律Compuware公司性能管理團隊的技術(shù)策略師。“另我印象最深的一方面是人們的假設(shè),因為它是大數(shù)據(jù),所以它是快速的大數(shù)據(jù)。如果你看向Hadoop,你把它看作是面向批處理的。它是快速的,但它永遠(yuǎn)不是實時的。”
就因為它是開源,并不意味它就為公司省錢。
“人們很糾結(jié)。Hadoop確實不便宜,而且很難管理,許多工作的運行速率又不同。拋棄越多的硬件,就會使得管理更難,”他說,還暗示說一些在大數(shù)據(jù)市場上的NoSQL和其它系統(tǒng)可能會看起來像CEP系統(tǒng)——它們重在速度。
“CEP系統(tǒng)在整個討論中會占有重要的地位,”他說。雖然他看到了Hadoop和NoSQL開發(fā)團隊正在努力提高查詢的性能和優(yōu)化數(shù)據(jù)庫,但他認(rèn)為他們很少優(yōu)化以高效到適應(yīng)應(yīng)用程序?qū)嶋H使用數(shù)據(jù)的方式。
進入高性能消息傳遞
低延遲消息傳遞正在興起,成為另一個使大數(shù)據(jù)提速的中間件方法。盡管華爾街金融應(yīng)用程序仍然是主要用例,但高性能消息傳遞定位于更廣泛的使用。廠商提供這樣的工作包括IBM,Informatica,PrismTech,RTI,Red Hat,Software AG,Solace Systems,Tervela,Tibco和其它的一些。
利用傳感器或所謂的物聯(lián)網(wǎng)的大數(shù)據(jù)應(yīng)用程序代表用例,這些用例需要華爾街應(yīng)用程序以外的低延遲中間件。這樣的軟件已經(jīng)用于分析應(yīng)用程序涵蓋航空、國防、電力公司、甚至停車系統(tǒng),根據(jù)Angelo Corsaro說,PrismTech公司的首席技術(shù)官。Corsaro監(jiān)控著OpenSplice DDS的工作,OpenSplice DDS支持對象管理集團(Object Management Group)的數(shù)據(jù)分布服務(wù)(DDS)實時系統(tǒng)。
“應(yīng)用程序使用OpenSplice來分布和緩存高容量的快速變化的數(shù)據(jù),”他在電子郵件中告訴SearchSOA.com。“一些技術(shù)之間的界線正變得模糊起來。”
“在某種意義上,OpenSplice提供了一些CEP的功能,”他說,并指出其基于內(nèi)容的訂閱,可以像在CEP領(lǐng)域一樣連續(xù)查詢。
“不管外圍重疊,技術(shù)將繼續(xù)專業(yè)化和集成,”他補充說。
當(dāng)然有CEP的元素可以區(qū)分大數(shù)據(jù)及其使用。CEP傾向于與小的數(shù)據(jù)集合工作,Merv Adrian說,Gartner的一位分析師。盡管如此,他看了各種技術(shù)在以他們的方式,將加快大數(shù)據(jù),就如我們現(xiàn)在知道它一樣。