越來越多的公司開始聚焦于大數(shù)據(jù)技術(shù)領(lǐng)域,而開源恰恰是大數(shù)據(jù)技術(shù)的靈魂。以下將為您介紹九大引人注目的開源大數(shù)據(jù)技術(shù),請拭目以待:
1.Apache Hadoop
Apache hadoop是一個開源的分布式計算框架,最初由Doug為支持其開源Web搜索引擎Nutch所創(chuàng)立。通過集成MapReduce技術(shù),Hadoop將大數(shù)據(jù)分布到多個數(shù)據(jù)節(jié)點上進(jìn)行處理。Hadoop遵循Apache 2.0許可證,可以輕松處理結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),一舉成為現(xiàn)在非常流行的大數(shù)據(jù)解決方案,
2.R語言
R語言是一種開源編程語言,專門為數(shù)據(jù)統(tǒng)計和數(shù)據(jù)可視化而設(shè)計。R語言最初由Ross Ihaka和Robert Gentleman在奧克蘭大學(xué)設(shè)計出來,之后迅速成為大數(shù)據(jù)領(lǐng)域的重要工具。R語言遵循GPL許可證。
3.Cascading
Cascading是一個針對Java開發(fā)人員的應(yīng)用框架,可以快速、輕松地基于Apache Hadoop開發(fā)數(shù)據(jù)分析和數(shù)據(jù)管理應(yīng)用。Cascading是Hadoop的抽象層,可以屏蔽MapReduce的復(fù)雜性,支持任何基于JVM的編程語言在Hadoop集群上執(zhí)行數(shù)據(jù)處理任務(wù)。Cascading最初由Chris Wensel開發(fā),用于作為MapReduce的替代API。Cascading遵循GNU許可證,一般用于廣告定位、日志分析、Web數(shù)據(jù)挖掘和ETL應(yīng)用。