其中最引人注目的方案包括:HAWQ、Impalla、Drill、Stinger以及Tajo。此類方案數(shù)量眾多,足夠另開(kāi)一個(gè)全新專題。
云計(jì)算

很多云平臺(tái)都在努力吸引Hadoop作業(yè),這是因?yàn)槠浒捶昼娪?jì)算租金的靈活業(yè)務(wù)模式非常適合Hadoop的實(shí)際需求。企業(yè)可以在短時(shí)間內(nèi)動(dòng)用數(shù)千臺(tái)設(shè)備進(jìn)行大數(shù)據(jù)處理,而不必再像過(guò)去那樣永久性購(gòu)入機(jī)架、再花上幾天或者幾周時(shí)間執(zhí)行同樣的計(jì)算任務(wù)。某些企業(yè),例如Amazon,正在通過(guò)將JAR文件引入軟件規(guī)程添加新的抽象層。一切其它設(shè)置與調(diào)度工作都可由云平臺(tái)自行完成。
上圖所示為Martin Abegglen在Flickr上發(fā)表的幾臺(tái)刀片計(jì)算機(jī)。
Spark

未來(lái)已然到來(lái)。對(duì)于某些算法,Hadoop的處理速度可能慢得令人抓狂–這是因?yàn)樗ǔR蕾囉诖鎯?chǔ)在磁盤(pán)上的數(shù)據(jù)。對(duì)于日志文件這種只需讀取一次的處理任務(wù)來(lái)說(shuō),速度慢些似乎還可以忍受;但一旦把范圍擴(kuò)大到所有負(fù)載,那些需要一次又一次訪問(wèn)數(shù)據(jù)的人工智能類程序可能因?yàn)樗俣冗^(guò)慢而根本不具備實(shí)用價(jià)值。
Spark代表著下一代解決思路。它與Hadoop的工作原理相似,但面向的卻是保存在內(nèi)存緩存中的數(shù)據(jù)。上圖來(lái)自Apache說(shuō)明文檔,其中演示的是Spark在理想狀態(tài)下與Hadoop之間的處理速度對(duì)比。Spark項(xiàng)目正處于Apache開(kāi)發(fā)當(dāng)中。