Hadoop足夠快嗎?美國(guó)加州大學(xué)伯克利分校的AMPLab基于Hadoop的核心組件開發(fā)出一個(gè)更快的版本Tachyon。AMPLab從底層重建了Hadoop平臺(tái),“沒有最快,只有更快”。
AMPLab在大數(shù)據(jù)領(lǐng)域最知名的產(chǎn)品是Spark,它是一個(gè)內(nèi)存中并行處理的框架,Spark的創(chuàng)造者聲稱:使用Shark運(yùn)行并行處理Job速度要比MapReduce快100倍。又因?yàn)镾park是在內(nèi)存運(yùn)行,所以Shark可與Druid或者SAP's HANA系統(tǒng)一較高下。Spark也為ClearStory下一代分析和可視化服務(wù)提供處理引擎。如果你喜歡用Hive作為Hadoop的數(shù)據(jù)倉(cāng)庫(kù),那么你一定會(huì)喜歡Shark,因?yàn)樗砹?ldquo;Hive>
AMPLab的其他項(xiàng)目包括PIQL,類似于一種基于鍵/值存儲(chǔ)的SQL查詢語(yǔ)言;MLBase,基于分布式系統(tǒng)的機(jī)器學(xué)習(xí)系統(tǒng);Akaros,一個(gè)多核和大型SMP系統(tǒng)的操作系統(tǒng);Sparrow,一個(gè)低延遲計(jì)算集群調(diào)度系統(tǒng)。(文/王鵬,審校/仲浩)