2011年,Kafka捐獻(xiàn)給了開源社區(qū),2012年從Apache孵化器計(jì)劃出來。當(dāng)初開發(fā)Kafka的領(lǐng)英開發(fā)人員成了從領(lǐng)英拆分出來的Confluent這家新公司的成員。
使用Kafka的公司包括領(lǐng)英、推特、網(wǎng)飛、Pinterest、高盛和Coursera。
Storm
Apache Storm在其項(xiàng)目頁面上的描述是,這是一種分布式實(shí)時(shí)計(jì)算系統(tǒng),讓用戶很容易可靠地處理無限制的數(shù)據(jù)流,正如Hadoop用于批量處理,Storm用于實(shí)時(shí)處理。
這項(xiàng)技術(shù)有時(shí)被稱為是Spark的替代技術(shù)。2011年,開發(fā)Storm的公司BackType被推特收購。2014年,從孵化器計(jì)劃出來后,Storm成為了Apache軟件基金會的一個(gè)頂級項(xiàng)目。
此后,推特開發(fā)了自己的內(nèi)部系統(tǒng),用于處理最初分派給Storm的任務(wù)。使用Storm的公司包括雅虎和Spotify。
Nifi
Apache Nifi原先名叫Niagara Files,這個(gè)技術(shù)轉(zhuǎn)讓項(xiàng)目由美國國家安全局(NSA)開發(fā),2014年11月,它作為一個(gè)孵化器項(xiàng)目,捐獻(xiàn)給Apache軟件基金會。2015年,它成了一個(gè)頂級項(xiàng)目。
Nifi旨在處理這個(gè)問題:如何讓數(shù)據(jù)在系統(tǒng)之間的流動實(shí)現(xiàn)自動化。其在Apache軟件基金會上的項(xiàng)目頁面介紹,這項(xiàng)技術(shù)“支持功能強(qiáng)大、可擴(kuò)展的有向圖,這些有向圖涉及數(shù)據(jù)路由、轉(zhuǎn)換和系統(tǒng)中介邏輯。”
它提供了一種基于Web的用戶界面。另外,與NSA開發(fā)的其他項(xiàng)目一樣,它也提供了安全功能,包括SSL、SSH、HTTPS、加密內(nèi)容,以及可插入式、基于角色的驗(yàn)證和授權(quán)機(jī)制。
Flink
2015年1月,Apache基金會接受Apache Flink成為一個(gè)頂級項(xiàng)目。這項(xiàng)技術(shù)是一種面向批量數(shù)據(jù)和流數(shù)據(jù)的分布式數(shù)據(jù)分析引擎,它提供了使用Java和Scala的編程API。
該項(xiàng)目脫胎于柏林的Stratosphere研究項(xiàng)目。使用Flink的企業(yè)組織包括第一資本(Capital One)和Data Artisans。
Arrow
這個(gè)月,Apache Arrow被Apache軟件基金會接收為一個(gè)頂級項(xiàng)目。這項(xiàng)技術(shù)源自Dremio公司,這家公司還捐獻(xiàn)了Apache Drill項(xiàng)目。Dremio的幾位創(chuàng)始人是從MapR出來的,這是一家Apache Hadoop發(fā)行版公司。
據(jù)Apache軟件基金會聲稱,Arrow最初是靠來自Apache Drill項(xiàng)目的代碼起家的。據(jù)Dremio的聯(lián)合創(chuàng)始人兼首席技術(shù)官Jacques Nadeau聲稱,Arrow提供了列式內(nèi)存分析功能。
Apache軟件基金會的更多大數(shù)據(jù)項(xiàng)目
這些是Apache軟件基金會里面Hadoop生態(tài)系統(tǒng)中一些備受關(guān)注的大數(shù)據(jù)項(xiàng)目。另外許多是捐獻(xiàn)而來的。所有這些項(xiàng)目的開發(fā)工作都在進(jìn)行之中,Apache軟件基金會的網(wǎng)站對它們都有全面記載。
Connolly告訴《信息周刊》雜志:“Apache之道就是社區(qū)比代碼重要。雖然技術(shù)值得關(guān)注,但是Apache之道是把社區(qū)放在首位。”
原文標(biāo)題:Hadoop Ecosystem Evolves: 10 Cool Big Data Projects