Facebook Scribe:流日志數(shù)據(jù)聚合器;
Fluentd:采集事件和日志的工具;
Google Photon:實(shí)時(shí)連接多個(gè)數(shù)據(jù)流的分布式計(jì)算機(jī)系統(tǒng),具有高可擴(kuò)展性和低延遲性;
Heka:開(kāi)源流處理軟件系統(tǒng);
HIHO:用Hadoop連接不同數(shù)據(jù)源的框架;
Kestrel:分布式消息隊(duì)列系統(tǒng);
LinkedIn Databus:對(duì)數(shù)據(jù)庫(kù)更改捕獲的事件流;
LinkedIn Kamikaze:壓縮已分類整型數(shù)組的程序包;
LinkedIn White Elephant:日志聚合器和儀表板;
Logstash:用于管理事件和日志的工具;
Netflix Suro:像基于Chukwa 的Storm和Samza一樣的日志聚合器;
Pinterest Secor:是實(shí)現(xiàn)Kafka日志持久性的服務(wù);
Linkedin Gobblin:LinkedIn的通用數(shù)據(jù)攝取框架;
Skizze:是一種數(shù)據(jù)存儲(chǔ)略圖,使用概率性數(shù)據(jù)結(jié)構(gòu)來(lái)處理計(jì)數(shù)、略圖等相關(guān)的問(wèn)題;
StreamSets Data Collector:連續(xù)大數(shù)據(jù)采集的基礎(chǔ)設(shè)施,可簡(jiǎn)單地使用IDE。
服務(wù)編程
Akka Toolkit:JVM中分布性、容錯(cuò)事件驅(qū)動(dòng)應(yīng)用程序的運(yùn)行時(shí)間;
Apache Avro:數(shù)據(jù)序列化系統(tǒng);
Apache Curator:Apache ZooKeeper的Java庫(kù);
Apache Karaf:在任何OSGi框架之上運(yùn)行的OSGi運(yùn)行時(shí)間;
Apache Thrift:構(gòu)建二進(jìn)制協(xié)議的框架;
Apache Zookeeper:流程管理集中式服務(wù);
Google Chubby:一種松耦合分布式系統(tǒng)鎖服務(wù);
Linkedin Norbert:集群管理器;
OpenMPI:消息傳遞框架;
Serf:服務(wù)發(fā)現(xiàn)和協(xié)調(diào)的分散化解決方案;
Spotify Luigi:一種構(gòu)建批處理作業(yè)的復(fù)雜管道的Python包,它能夠處理依賴性解析、工作流管理、可視化、故障處理、命令行一體化等等問(wèn)題;
Spring XD:數(shù)據(jù)攝取、實(shí)時(shí)分析、批量處理和數(shù)據(jù)導(dǎo)出的分布式、可擴(kuò)展系統(tǒng);
Twitter Elephant Bird:LZO壓縮數(shù)據(jù)的工作庫(kù);
Twitter Finagle:JVM的異步網(wǎng)絡(luò)堆棧。
調(diào)度
Apache Aurora:在Apache Mesos之上運(yùn)行的服務(wù)調(diào)度程序;
Apache Falcon:數(shù)據(jù)管理框架;
Apache Oozie:工作流作業(yè)調(diào)度程序;
Chronos:分布式容錯(cuò)調(diào)度;
Linkedin Azkaban:批處理工作流作業(yè)調(diào)度;
Schedoscope:Hadoop作業(yè)敏捷調(diào)度的Scala DSL;
Sparrow:調(diào)度平臺(tái);
Airflow:一個(gè)以編程方式編寫、調(diào)度和監(jiān)控工作流的平臺(tái)。
機(jī)器學(xué)習(xí)
Apache Mahout:Hadoop的機(jī)器學(xué)習(xí)庫(kù);
brain:JavaScript中的神經(jīng)網(wǎng)絡(luò);
Cloudera Oryx:實(shí)時(shí)大規(guī)模機(jī)器學(xué)習(xí);
Concurrent Pattern:Cascading的機(jī)器學(xué)習(xí)庫(kù);
convnetjs:Javascript中的機(jī)器學(xué)習(xí),在瀏覽器中訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(或普通網(wǎng)絡(luò));
Decider:Ruby中靈活、可擴(kuò)展的機(jī)器學(xué)習(xí);
ENCOG:支持多種先進(jìn)算法的機(jī)器學(xué)習(xí)框架,同時(shí)支持類的標(biāo)準(zhǔn)化和處理數(shù)據(jù);
etcML:機(jī)器學(xué)習(xí)文本分類;
Etsy Conjecture:Scalding中可擴(kuò)展的機(jī)器學(xué)習(xí);
Google Sibyl:Google中的大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng);
GraphLab Create:Python的機(jī)器學(xué)習(xí)平臺(tái),包括ML工具包、數(shù)據(jù)工程和部署工具的廣泛集合;
H2O:Hadoop統(tǒng)計(jì)性的機(jī)器學(xué)習(xí)和數(shù)學(xué)運(yùn)行時(shí)間;
MLbase:用于BDAS堆棧的分布式機(jī)器學(xué)習(xí)庫(kù);
MLPNeuralNet:針對(duì)iOS和Mac OS X的快速多層感知神經(jīng)網(wǎng)絡(luò)庫(kù);
MonkeyLearn:使文本挖掘更為容易,從文本中提取分類數(shù)據(jù);
nupic:智能計(jì)算的Numenta平臺(tái),它是一個(gè)啟發(fā)大腦的機(jī)器智力平臺(tái),基于皮質(zhì)學(xué)習(xí)算法的精準(zhǔn)的生物神經(jīng)網(wǎng)絡(luò);
PredictionIO:建于Hadoop、Mahout和Cascading上的機(jī)器學(xué)習(xí)服務(wù)器;
SAMOA:分布式流媒體機(jī)器學(xué)習(xí)框架;
scikit-learn:scikit-learn為Python中的機(jī)器學(xué)習(xí);
Spark MLlib:Spark中一些常用的機(jī)器學(xué)習(xí)(ML)功能的實(shí)現(xiàn);
Vowpal Wabbit:微軟和雅虎發(fā)起的學(xué)習(xí)系統(tǒng);
WEKA:機(jī)器學(xué)習(xí)軟件套件;
BidMach:CPU和加速GPU的機(jī)器學(xué)習(xí)庫(kù)。
基準(zhǔn)測(cè)試
Apache Hadoop Benchmarking:測(cè)試Hadoop性能的微基準(zhǔn);
Berkeley SWIM Benchmark:現(xiàn)實(shí)大數(shù)據(jù)工作負(fù)載基準(zhǔn)測(cè)試;
Intel HiBench:Hadoop基準(zhǔn)測(cè)試套件;
PUMA Benchmarking:MapReduce應(yīng)用的基準(zhǔn)測(cè)試套件;
Yahoo Gridmix3:雅虎工程師團(tuán)隊(duì)的Hadoop集群基準(zhǔn)測(cè)試。
安全性
Apache Knox Gateway:Hadoop集群安全訪問(wèn)的單點(diǎn);
Apache Sentry:存儲(chǔ)在Hadoop的數(shù)據(jù)安全模塊。
系統(tǒng)部署
Apache Ambari:Hadoop管理的運(yùn)作框架;
Apache Bigtop:Hadoop生態(tài)系統(tǒng)的部署框架;
Apache Helix:集群管理框架;
Apache Mesos:集群管理器;
Apache Slider:一種YARN應(yīng)用,用來(lái)部署YARN中現(xiàn)有的分布式應(yīng)用程序;
Apache Whirr:運(yùn)行云服務(wù)的庫(kù)集;
Apache YARN:集群管理器;