批量處理
當快速相應(yīng)時間不是核心要素時,就可采用數(shù)據(jù)批量處理。批量處理用于處理一段時間積累的數(shù)據(jù)集。例如白天收集EDI聲明,晚上打包至文件夾中準備用于處理。
Apache Hive是一個用于數(shù)據(jù)倉儲的開源Hadoop應(yīng)用程序。它提供了一個便捷的方式在大量的非結(jié)構(gòu)化數(shù)據(jù)之上建立框架,然后對這些數(shù)據(jù)進行類似SQL查詢操作的批處理程序。
Apache的Spark是下一代分布式并行處理框架,可為機器學(xué)習(xí)、圖形處理、SQL等提供一套豐富的API。 對于迭代算法,Spark處理速度要比MapReduce更快,因為Apache盡量將相關(guān)信息儲存在儲存器中,而MapReduce則更多地直接從盤中讀取和寫入。
流式數(shù)據(jù)處理
Spark Streaming是基于Spark的實時計算框架,其將流式計算分解成一系列短小的批處理作業(yè)。因此,你可以像編寫批處理作業(yè)一樣編寫流作業(yè)。當然,處理大規(guī)模流式數(shù)據(jù),除了Spark Streaming, Apache Flink 和 Apache Storm也是不錯的選擇。