關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)
MySQL:世界最流行的開源數(shù)據(jù)庫;
PostgreSQL:世界最先進(jìn)的開源數(shù)據(jù)庫;
Oracle 數(shù)據(jù)庫:對象-關(guān)系型數(shù)據(jù)庫管理系統(tǒng)。
框架
Apache Hadoop:分布式處理架構(gòu),結(jié)合了 MapReduce(并行處理)、YARN(作業(yè)調(diào)度)和HDFS(分布式文件系統(tǒng));
Tigon:高吞吐量實(shí)時(shí)流處理框架。
分布式編程
AddThis Hydra :最初在AddThis上開發(fā)的分布式數(shù)據(jù)處理和存儲系統(tǒng);
AMPLab SIMR:用在Hadoop MapReduce v1上運(yùn)行Spark;
Apache Beam:為統(tǒng)一的模型以及一套用于定義和執(zhí)行數(shù)據(jù)處理工作流的特定SDK語言;
Apache Crunch:一個(gè)簡單的Java API,用于執(zhí)行在普通的MapReduce實(shí)現(xiàn)時(shí)比較單調(diào)的連接、數(shù)據(jù)聚合等任務(wù);
Apache DataFu:由LinkedIn開發(fā)的針對Hadoop and 和Pig的用戶定義的函數(shù)集合;
Apache Flink:具有高性能的執(zhí)行時(shí)間和自動(dòng)程序優(yōu)化;
Apache Gora:內(nèi)存中的數(shù)據(jù)模型和持久性框架;
Apache Hama:BSP(整體同步并行)計(jì)算框架;
Apache MapReduce :在集群上使用并行、分布式算法處理大數(shù)據(jù)集的編程模型;
Apache Pig :Hadoop中,用于處理數(shù)據(jù)分析程序的高級查詢語言;
Apache REEF :用來簡化和統(tǒng)一低層大數(shù)據(jù)系統(tǒng)的保留性評估執(zhí)行框架;
Apache S4 :S4中流處理與實(shí)現(xiàn)的框架;
Apache Spark :內(nèi)存集群計(jì)算框架;
Apache Spark Streaming :流處理框架,同時(shí)是Spark的一部分;
Apache Storm :Twitter流處理框架,也可用于YARN;
Apache Samza :基于Kafka和YARN的流處理框架;
Apache Tez :基于YARN,用于執(zhí)行任務(wù)中的復(fù)雜DAG(有向無環(huán)圖);
Apache Twill :基于YARN的抽象概念,用于減少開發(fā)分布式應(yīng)用程序的復(fù)雜度;
Cascalog:數(shù)據(jù)處理和查詢庫;
Cheetah :在MapReduce之上的高性能、自定義數(shù)據(jù)倉庫;
Concurrent Cascading :在Hadoop上的數(shù)據(jù)管理/分析框架;
Damballa Parkour :用于Clojure的MapReduce庫;
Datasalt Pangool :可選擇的MapReduce范例;
DataTorrent StrAM :為實(shí)時(shí)引擎,用于以盡可能暢通的方式、最小的開支和對性能最小的影響,實(shí)現(xiàn)分布式、異步、實(shí)時(shí)的內(nèi)存大數(shù)據(jù)計(jì)算;
Facebook Corona :為Hadoop做優(yōu)化處理,從而消除單點(diǎn)故障;
Facebook Peregrine :MapReduce框架;
Facebook Scuba :分布式內(nèi)存數(shù)據(jù)存儲;
Google Dataflow :創(chuàng)建數(shù)據(jù)管道,以幫助其分析框架;
Netflix PigPen :為MapReduce,用于編譯成Apache Pig;
Nokia Disco :由Nokia開發(fā)的MapReduc獲取、轉(zhuǎn)換和分析數(shù)據(jù);
Google MapReduce :MapReduce框架;
Google MillWheel :容錯(cuò)流處理框架;
JAQL :用于處理結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)工作的聲明性編程語言;
Kite :為一組庫、工具、實(shí)例和文檔集,用于使在Hadoop的生態(tài)系統(tǒng)上建立系統(tǒng)更加容易;
Metamarkets Druid :用于大數(shù)據(jù)集的實(shí)時(shí)e框架;
Onyx :分布式云計(jì)算;
Pinterest Pinlater :異步任務(wù)執(zhí)行系統(tǒng);
Pydoop :用于Hadoop的Python MapReduce和HDFS API;
Rackerlabs Blueflood :多租戶分布式測度處理系統(tǒng);
Stratosphere :通用集群計(jì)算框架;
Streamdrill :用于計(jì)算基于不同時(shí)間窗口的事件流的活動(dòng),并找到最活躍的一個(gè);
Tuktu :易于使用的用于分批處理和流計(jì)算的平臺,通過Scala、 Akka和Play所建;
Twitter Scalding:基于Cascading,用于Map Reduce工作的Scala庫;
Twitter Summingbird :在Twitter上使用Scalding和Storm串流MapReduce;
Twitter TSAR :Twitter上的時(shí)間序列聚合器。
分布式文件系統(tǒng)
Apache HDFS:在多臺機(jī)器上存儲大型文件的方式;
BeeGFS:以前是FhGFS,并行分布式文件系統(tǒng);
Ceph Filesystem:設(shè)計(jì)的軟件存儲平臺;
Disco DDFS:分布式文件系統(tǒng);
Facebook Haystack:對象存儲系統(tǒng);
Google Colossus:分布式文件系統(tǒng)(GFS2);
Google GFS:分布式文件系統(tǒng);
Google Megastore:可擴(kuò)展的、高度可用的存儲;
GridGain:兼容GGFS、Hadoop內(nèi)存的文件系統(tǒng);
Lustre file system:高性能分布式文件系統(tǒng);
Quantcast File System QFS:開源分布式文件系統(tǒng);
Red Hat GlusterFS:向外擴(kuò)展的附網(wǎng)存儲(Network-attached Storage)文件系統(tǒng);
Seaweed-FS:簡單的、高度可擴(kuò)展的分布式文件系統(tǒng);
Alluxio:以可靠的存儲速率在跨集群框架上文件共享;
Tahoe-LAFS:分布式云存儲系統(tǒng);
文件數(shù)據(jù)模型
Actian Versant:商用的面向?qū)ο髷?shù)據(jù)庫管理系統(tǒng);
Crate Data:是一個(gè)開源的大規(guī)??蓴U(kuò)展的數(shù)據(jù)存儲,需要零管理模式;