Brooklyn:用于簡化應(yīng)用程序部署和管理的庫;
Buildoop:基于Groovy語言,和Apache BigTop類似;
Cloudera HUE:和Hadoop進(jìn)行交互的Web應(yīng)用程序;
Facebook Prism:多數(shù)據(jù)中心復(fù)制系統(tǒng);
Google Borg:作業(yè)調(diào)度和監(jiān)控系統(tǒng);
Google Omega:作業(yè)調(diào)度和監(jiān)控系統(tǒng);
Hortonworks HOYA:可在YARN上部署HBase集群的應(yīng)用;
Marathon:用于長期運(yùn)行服務(wù)的Mesos框架。
應(yīng)用程序
Adobe spindle:使用Scala、Spark和Parquet處理的下一代web分析;
Apache Kiji:基于HBase,實(shí)時(shí)采集和分析數(shù)據(jù)的框架;
Apache Nutch:開源網(wǎng)絡(luò)爬蟲;
Apache OODT:用于NASA科學(xué)檔案中數(shù)據(jù)的捕獲、處理和共享;
Apache Tika:內(nèi)容分析工具包;
Argus:時(shí)間序列監(jiān)測和報(bào)警平臺;
Countly:基于Node.js和MongoDB,開源的手機(jī)和網(wǎng)絡(luò)分析平臺;
Domino:運(yùn)行、規(guī)劃、共享和部署模型——沒有任何基礎(chǔ)設(shè)施;
Eclipse BIRT:基于Eclipse的報(bào)告系統(tǒng);
Eventhub:開源的事件分析平臺;
Hermes:建于Kafka上的異步消息代理;
HIPI Library:在Hadoop’s MapReduce上執(zhí)行圖像處理任務(wù)的API;
Hunk:Hadoop的Splunk分析;
Imhotep:大規(guī)模分析平臺;
MADlib:RDBMS的用于數(shù)據(jù)分析的數(shù)據(jù)處理庫;
Kylin:來自eBay的開源分布式分析工具;
PivotalR:Pivotal HD / HAWQ和PostgreSQL中的R;
Qubole:為自動縮放Hadoop集群,內(nèi)置的數(shù)據(jù)連接器;
Sense:用于數(shù)據(jù)科學(xué)和大數(shù)據(jù)分析的云平臺;
SnappyData:用于實(shí)時(shí)運(yùn)營分析的分布式內(nèi)存數(shù)據(jù)存儲,提供建立在Spark單一集成集群中的數(shù)據(jù)流分析、OLTP(聯(lián)機(jī)事務(wù)處理)和OLAP(聯(lián)機(jī)分析處理);
Snowplow:企業(yè)級網(wǎng)絡(luò)和事件分析,由Hadoop、Kinesis、Redshift 和Postgres提供技術(shù)支持;
SparkR:Spark的R前端;
Splunk:用于機(jī)器生成的數(shù)據(jù)的分析;
Sumo Logic:基于云的分析儀,用于分析機(jī)器生成的數(shù)據(jù);
Talend:用于YARN、Hadoop、HBASE、Hive、HCatalog和Pig的統(tǒng)一開源環(huán)境;
Warp:利用大數(shù)據(jù)(OS X app)的實(shí)例查詢工具。
搜索引擎與框架
Apache Lucene:搜索引擎庫;
Apache Solr:用于Apache Lucene的搜索平臺;
ElasticSearch:基于Apache Lucene的搜索和分析引擎;
Enigma.io:為免費(fèi)增值的健壯性web應(yīng)用,用于探索、篩選、分析、搜索和導(dǎo)出來自網(wǎng)絡(luò)的大規(guī)模數(shù)據(jù)集;
Facebook Unicorn:社交圖形搜索平臺;
Google Caffeine:連續(xù)索引系統(tǒng);
Google Percolator:連續(xù)索引系統(tǒng);
TeraGoogle:大型搜索索引;
HBase Coprocessor:為Percolator的實(shí)現(xiàn),HBase的一部分;
Lily HBase Indexer:快速、輕松地搜索存儲在HBase的任何內(nèi)容;
LinkedIn Bobo:完全由Java編寫的分面搜索的實(shí)現(xiàn),為Apache Lucene的延伸;
LinkedIn Cleo:為一個(gè)一個(gè)靈活的軟件庫,使得局部、無序、實(shí)時(shí)預(yù)輸入的搜索實(shí)現(xiàn)了快速發(fā)展;
LinkedIn Galene:LinkedIn搜索架構(gòu);
LinkedIn Zoie:是用Java編寫的實(shí)時(shí)搜索/索引系統(tǒng);
Sphinx Search Server:全文搜索引擎
MySQL的分支和演化
Amazon RDS:亞馬遜云的MySQL數(shù)據(jù)庫;
Drizzle:MySQL的6.0的演化;
Google Cloud SQL:谷歌云的MySQL數(shù)據(jù)庫;
MariaDB:MySQL的增強(qiáng)版嵌入式替代品;
MySQL Cluster:使用NDB集群存儲引擎的MySQL實(shí)現(xiàn);
Percona Server:MySQL的增強(qiáng)版嵌入式替代品;
ProxySQL:MySQL的高性能代理;
TokuDB:用于MySQL和 MariaDB的存儲引擎;
WebScaleSQL:運(yùn)行MySQL時(shí)面臨類似挑戰(zhàn)的幾家公司,它們的工程師之間的合作。
PostgreSQL的分支和演化
Yahoo Everest – multi-peta-byte database / MPP derived by PostgreSQL.
HadoopDB:MapReduce和DBMS的混合體;
IBM Netezza:高性能數(shù)據(jù)倉庫設(shè)備;
Postgres-XL:基于PostgreSQL,可擴(kuò)展的開源數(shù)據(jù)庫集群;
RecDB:完全建立在PostgreSQL內(nèi)部的開源推薦引擎;
Stado:開源MPP數(shù)據(jù)庫系統(tǒng),只針對數(shù)據(jù)倉庫和數(shù)據(jù)集市的應(yīng)用程序;
Yahoo Everest:PostgreSQL可以推導(dǎo)多字節(jié)P比特?cái)?shù)據(jù)庫/MPP。
Memcached的分支和演化
Facebook McDipper:閃存的鍵/值緩存;
Facebook Memcached:Memcache的分支;
Twemproxy:Memcached和Redis的快速、輕型代理;
Twitter Fatcache:閃存的鍵/值緩存;
Twitter Twemcache:Memcache的分支。
嵌入式數(shù)據(jù)庫
Actian PSQL:Pervasive Software公司開發(fā)的ACID兼容的DBMS,在應(yīng)用程序中嵌入了優(yōu)化;
BerkeleyDB:為鍵/值數(shù)據(jù)提供一個(gè)高性能的嵌入式數(shù)據(jù)庫的一個(gè)軟件庫;
HanoiDB:Erlang LSM BTree存儲;