Flink支持delta-iterations,在迭代中可以顯著減少計(jì)算。同時(shí),在處理方式中,F(xiàn)link是一行一行處理,從而能獲得與Storm類(lèi)似的性能。然而,對(duì)于SQL支持和社區(qū)活躍度上,F(xiàn)link都稍遜Spark一籌。
3. 即席查詢(xún)
即席查詢(xún)當(dāng)下比較受關(guān)注的有Hive、SparkSQL、Presto、Impala、Drill等,其中Hive借助于Hadoop的東風(fēng),已然在生產(chǎn)環(huán)境得到廣泛使用。在Hive之外,關(guān)注度最高的無(wú)疑是Spark SQL。Impala出自知名大數(shù)據(jù)創(chuàng)業(yè)公司Cloudera,在沉寂了一段時(shí)間后,當(dāng)下亦有了復(fù)蘇的跡象。Presto來(lái)自Facebook,類(lèi)似于Impala的一個(gè)即席查詢(xún)工具,在該公司內(nèi)部得到廣泛使用,而國(guó)內(nèi)也在一些知名公司得到部署,比如美團(tuán)。Drill則是Google Dremel的開(kāi)源實(shí)現(xiàn),于今年5月發(fā)布了里程碑版本1.0,稍顯年輕。
大數(shù)據(jù)開(kāi)源生態(tài)繁花似錦
在大數(shù)據(jù)領(lǐng)域,除下上述幾個(gè)分布式計(jì)算類(lèi)別之外,在圖處理和機(jī)器學(xué)習(xí)領(lǐng)域同樣存在許多優(yōu)秀的開(kāi)源技術(shù)框架,比如:圖計(jì)算開(kāi)源技術(shù)Spark Graphx、PowerGraph、Giraph、Neo4j等;機(jī)器學(xué)習(xí)開(kāi)源技術(shù)Spark MLlib、Mahout、PredictionIO等。同時(shí),開(kāi)源技術(shù)已經(jīng)占領(lǐng)了數(shù)據(jù)從收集到可視化和存儲(chǔ)的整個(gè)流程,比如:用于數(shù)據(jù)收集的Flume(NG)和Sqoop,分布式消息隊(duì)列技術(shù)Kafka、RabbitMQ,用于數(shù)據(jù)可視化的HighCharts、D3.js、Kibana、Echarts等等。此外,加之Cassandra、HBase、MongoDB、Redis等NoSQL,Lucene、Solr、ElasticSearch等搜索技術(shù),Docker等容器技術(shù),ZooKeeper等分布式應(yīng)用程序協(xié)調(diào)服務(wù),整個(gè)大數(shù)據(jù)開(kāi)源生態(tài)繁花似錦!
本文永久更新鏈接地址:http://www.linuxidc.com/Linux/2015-09/122902.htm