在 一大三?。簛嗰R遜,微軟、谷歌、IBM ,IaaS四強(qiáng)爭(zhēng)霸中,我們有報(bào)道過(guò)IaaS領(lǐng)域的硝煙彌漫,而Amazon在市場(chǎng)占有率上有著壓倒性的優(yōu)勢(shì)——租用的計(jì)算資源是象限中其它14個(gè)供應(yīng)商的5倍,IaaS霸主地位毋庸置疑。然而,區(qū)別于其IaaS的絕對(duì)優(yōu)勢(shì),AWS在PaaS領(lǐng)域的日子似乎“沒那么好過(guò)”,其領(lǐng)先地位受GCE、Azure、Heroku等眾多勁敵窺伺。然而AWS之所以為AWS,不僅因?yàn)槠鋽?shù)量龐大的合作伙伴,還有其獨(dú)一無(wú)二的云服務(wù),就在本個(gè)月,Amazon一掃之前在PaaS領(lǐng)域的低調(diào),在宣布EMR支持Impala之后,更推出了流計(jì)算服務(wù)Kinesis。
EMR支持Impala:AWS軍團(tuán)亮劍流計(jì)算之始
本月,Amazon宣布EMR支持Impala,Impala是專為實(shí)時(shí)、ad-hoc查詢?cè)O(shè)計(jì)的開源工具,使用類SQL語(yǔ)言。在AmazonEMR上使用Impala,用戶可以在非結(jié)構(gòu)數(shù)據(jù)上執(zhí)行快速的交互分析。對(duì)于許多類型的查詢,比Hive快很多。Impala的性能使它成為迭代查詢和許多流行BI工具一個(gè)很好的引擎。通過(guò)Amazon EMR,用戶可以用Impala作一個(gè)可靠的數(shù)據(jù)倉(cāng)庫(kù)來(lái)執(zhí)行數(shù)據(jù)分析、監(jiān)控和商務(wù)智能等任務(wù)。這里是三個(gè)用例:
- 取代Hive,在長(zhǎng)期運(yùn)行的集群上使用Impala來(lái)執(zhí)行ad-hoc查詢。Impala可以將迭代查詢時(shí)間減少至秒級(jí),使它非常適合做快速調(diào)研。用戶可以在同一個(gè)集群上進(jìn)行流計(jì)算和批處理,在一個(gè)長(zhǎng)期運(yùn)行的Hive和Pig分析集群上使用Impala,或者為Impala查詢建立一個(gè)經(jīng)過(guò)專門調(diào)優(yōu)的集群。
- 在短暫的Amazon EMR集群上使用Impala而不是Hive來(lái)進(jìn)行批ETL作業(yè)。對(duì)于很多查詢來(lái)說(shuō),Impala比Hive快,就像Hive,Impala使用SQL,所以,從Hive到Impala查詢修改工作量并不大。
- 結(jié)合使用Impala和第三方商業(yè)智能工具。通過(guò)給集群連一個(gè)客戶端ODBC或者JDBC驅(qū)動(dòng),你可以將Impala作為強(qiáng)大可視化工具及監(jiān)視面板的查詢引擎。
Kinesis的全面可用:AWS之所以為AWS的原因
Kinesis,AWS于11月宣布的流數(shù)據(jù)服務(wù),現(xiàn)已公開使用。這種服務(wù)理論上可以與流行的開源技術(shù)(比如Apache Strom)相匹敵,而當(dāng)下也只有Kinesis能帶來(lái)完全的管理經(jīng)驗(yàn),這種經(jīng)驗(yàn)成為AWS的進(jìn)程中的標(biāo)準(zhǔn)。
隨著公司(尤其是基于因特網(wǎng)的公司)尋求超越他們倚仗已久的批處理方式,流處理正變得越來(lái)越流行。流處理主要利用數(shù)據(jù)的實(shí)時(shí)優(yōu)勢(shì),而不是等待幾分鐘,甚至是數(shù)小時(shí)來(lái)分析收集所有(前一批正在處理之后)的數(shù)據(jù),對(duì)這項(xiàng)工作而言Storm可能是最流行的工具,在發(fā)往其它地方(比如Hadoop)與歷史數(shù)據(jù)進(jìn)行分析之前,Storm就會(huì)在數(shù)據(jù)傳輸過(guò)程中進(jìn)行處理。