對(duì)于一些人來說,Hadoop的批處理模型的一個(gè)問題是,它估計(jì)在突增數(shù)據(jù)采集之間的進(jìn)行批處理時(shí)會(huì)有宕機(jī)的時(shí)間。這是許多企業(yè)都的情況,當(dāng)他們?cè)诒镜夭僮?,或者在白天有大量事?wù),但很少在晚上(如果有的話)。如果夜間窗口足夠大可以處理前一天積累的數(shù)據(jù),那么一切都會(huì)順利。雖然對(duì)于一些企業(yè),窗口的停機(jī)時(shí)間是小或不存在的,甚至使用Hadoop的高性能的處理,他們?nèi)匀辉谝惶靸?nèi)得到的數(shù)據(jù)比他們可以在24內(nèi)小時(shí)處理的要多。
對(duì)于可接受小窗口的組織,添加基于數(shù)據(jù)處理組件的方法可能有幫助,GigaSpaces的首席技術(shù)官Nati Shalom在最近的一篇關(guān)于使用Hadoop更快的博客中寫到。通過不斷地處理傳入的數(shù)據(jù)轉(zhuǎn)化成有用的包和刪除那些不需要企業(yè)處理(或再加工)的靜態(tài)數(shù)據(jù),可以顯著加速他們的大數(shù)據(jù)的批處理過程。