內存中數據庫系統(tǒng)利用計算機的主內存來存儲經常使用的數據,因而大大縮短了處理時間。內存中數據庫產品包括SAP HANA和甲骨文Times Ten內存中數據庫。
Java
Java是一種編程語言,由現隸屬甲骨文公司的Sun開發(fā),于1995年發(fā)布。Hadoop和其他許多大數據技術都是使用Java開發(fā)而成的,它仍是大數據領域一種主要的開發(fā)技術。
Kafka
Kafka是一種高吞吐量的分布式消息傳送系統(tǒng),最初是在LinkedIn開發(fā)而成,用于管理該服務網站的活動流(關于網站使用情況的數據)和操作數據處理流水線(關于服務器組件的性能)。
Kafka在處理大量流式數據時很有效,而流式數據是許多大數據計算環(huán)境的一個關鍵問題。由推特開發(fā)的Storm是另一種大行其道的流處理技術。
Apache軟件基金會已將Kafka列為一個開源項目。所以,別以為這是有缺陷的軟件。
延遲時間
延遲時間是指數據從一個點傳送到另一個點過程中的延遲,或者是某個系統(tǒng)(如應用程序)響應另一個系統(tǒng)的延遲數量。
雖然延遲時間不是什么新術語,但是隨著數據量不斷增長,IT系統(tǒng)竭力跟上步伐,如今你更常聽到這個術語。簡單地說,"低延遲"是好事,"高延遲"是壞事。
映射/化簡
映射/化簡(Map/Reduce)這種方法是指把一個復雜的問題分解成多個較小的部分,然后將它們分發(fā)到多臺計算機上,最后把它們重新組裝成一個答案。
谷歌的搜索系統(tǒng)用到了映射/化簡概念,這家公司有一個品牌名為MapReduce的框架。
谷歌在2004年發(fā)布的一份白皮書描述了它使用映射/化簡的情況。Hadoop之父道格o卡廷充分認識到了其潛力,開發(fā)出了同樣借用映射/化簡概念的第一個版本的Hadoop。
NoSQL數據庫
大多數主流的數據庫(如甲骨文數據庫和微軟SQL Server)基于關系型體系結構,使用結構化查詢語言(SQL)用于開發(fā)和數據管理。
但是名為"NoSQL"(有些人現在稱NoSQL表示"不是只有SQL")的新一代數據庫系統(tǒng)基于支持者們認為更適合處理大數據的體系結構。
一些NoSQL數據庫是為提高可擴展性和靈活性設計的,另一些NoSQL數據庫在處理文檔及其他非結構化數據方面比較有效。典型的NoSQL數據庫包括Hadoop/HBase、Cassandra、MongoDB和CouchDB,而甲骨文等一些知名開發(fā)商已推出了各自的NoSQL產品。
Oozie
Apache Oozie是一種開源工作流引擎,用于幫助管理面向Hadoop的處理工作。使用Oozie,一系列工作可以用多種語言(如Pig和MapReduce)來加以定義,然后彼此關聯起來。比如說,一旦從操作應用程序收集數據的作業(yè)已完成,程序員就可以啟動數據分析查詢任務。
Pig
Pig是Apache軟件基金會的另一個項目,這個平臺用于分析龐大的數據集。就其本質而言,Pig是一種編程語言,可用于開發(fā)在Hadoop上運行的并行計算查詢。
定量數據分析
定量數據分析是指使用復雜的數學或統(tǒng)計模型,解釋金融和商業(yè)行為,或者甚至預測未來的行為。
由于如今收集的數據量急劇增加,定量數據分析已變得更加復雜。但是如果公司知道如何利用海量數據,獲得更好的可視性,深入了解公司業(yè)務,并且洞察市場發(fā)展趨勢,那么更多的數據也有望在數據分析方面帶來更多的機會。
一個問題是,擁有這種分析技能的人才嚴重匱乏。知名咨詢公司麥肯錫表示,光美國就需要150萬名擁有大數據分析技能的分析員和管理員。