
批量處理
當快速相應時間不是核心要素時,就可采用數(shù)據(jù)批量處理。批量處理用于處理一段時間積累的數(shù)據(jù)集。例如白天收集EDI聲明,晚上打包至文件夾中準備用于處理。
Apache Hive是一個用于數(shù)據(jù)倉儲的開源Hadoop應用程序。它提供了一個便捷的方式在大量的非結構化數(shù)據(jù)之上建立框架,然后對這些數(shù)據(jù)進行類似SQL查詢操作的批處理程序。
Apache的Spark是下一代分布式并行處理框架,可為機器學習、圖形處理、SQL等提供一套豐富的API。 對于迭代算法,Spark處理速度要比MapReduce更快,因為Apache盡量將相關信息儲存在儲存器中,而MapReduce則更多地直接從盤中讀取和寫入。

流式數(shù)據(jù)處理
Spark Streaming是基于Spark的實時計算框架,其將流式計算分解成一系列短小的批處理作業(yè)。因此,你可以像編寫批處理作業(yè)一樣編寫流作業(yè)。當然,處理大規(guī)模流式數(shù)據(jù),除了Spark Streaming, Apache Flink 和 Apache Storm也是不錯的選擇。

NOSQL數(shù)據(jù)庫存儲
存儲海量數(shù)據(jù),我們需要一個既能滿足快速寫入又能滿足大批量錄入的數(shù)據(jù)庫。MapR-DB應運而生,MapR-DB就是為了規(guī)?;瘜懭攵O計,因為事實上同時讀取的數(shù)據(jù)也存儲在一起。