云計算和海量數(shù)據(jù)分析的組合注定應當配合在一起使用。云計算的模式基本上可以讓用戶利用服務商提供的基礎設施和相關的專業(yè)知識而無需在其內(nèi)部構建。
值得慶幸的是海量數(shù)據(jù)已和云計算有機地結合。專家預測,未來在此領域的投資將會逐漸增大。目前已有幾家公司將云計算和海量數(shù)據(jù)融合在一起,并推出了特有的服務。
Quantivo
Quantivo在周二剛剛宣布進入這個市場,并推出了基于云的數(shù)據(jù)分析平臺。該平臺能夠?qū)碜远喾降钠髽I(yè)數(shù)據(jù)匯集在一起,并轉(zhuǎn)化改進數(shù)據(jù),然后用戶可以通過Quantivo專用的接口使用這些數(shù)據(jù)。Quantivo表示其技術在收集客戶數(shù)據(jù)集過程中需要通過“intelligently auto-compiling lists of patterns”預測。
101data
101data實際上在處理大數(shù)據(jù)領域已經(jīng)有10年以上的時間經(jīng)驗。在人們談論與計算之前,101data已經(jīng)提供多種針對于海量數(shù)據(jù)實際使用中的特定服務,包括數(shù)據(jù)倉庫和商業(yè)智能高級分析。客戶可使用熟悉的工具與服務進行交互。例如電子表格,客戶可以容易的找到他們想要的。101data的高級副總裁Tim Negris表示海量數(shù)據(jù)的收集以及存放和利用海量數(shù)據(jù)實際上完全是兩回事。在做任何事前需要大量(準備數(shù)據(jù))的工作是像Oracle和大多數(shù)數(shù)據(jù)庫廠商所面臨的難題之一。我們正是要消除這個難題,并把數(shù)據(jù)直接交到分析師的手中。
Opera Solutions
Opera Solutions是一個有趣的公司。盡管年收入達到1億美元,但很少有人知道這家公司。雖然公司鮮為人知,但其提供的服務對客戶而言還是相當具有吸引力的??蛻魧⑺麄兊臄?shù)據(jù)上傳到Opera平臺之上,然后對數(shù)據(jù)進行分析,最后按照客戶數(shù)據(jù)集相關“標記”分析出客戶想要的數(shù)據(jù)。Opera并不滿足于向客戶提供普通的數(shù)據(jù)分析,Opera的業(yè)務側(cè)重于按照每個客戶的具體需求并采用各種行業(yè)的專業(yè)手段,以幫助每個客戶滿足其特有的數(shù)據(jù)分析需求。
IBM
IBM提供基于云服務的海量數(shù)據(jù)分析方面多種方案的選擇,但目前IBM的策略似乎主要是圍繞Hadoop在發(fā)展。IBM在4月推出了其SmartCloud云計算平臺。并承諾改善Hadoop工作負載。IBM提供了基于Hadoop的InfoSphere BigInsights(IBM InfoSphere BigInsights是用于分析和虛擬化海量數(shù)據(jù)的軟件和服務,這款新產(chǎn)品由 Apache Hadoop 提供技術支持。)基本版和企業(yè)版。 InfoSphere BigInsights之前作為IBM測試和開發(fā)的云產(chǎn)品,現(xiàn)在被SmartCloud取代。
Amazon Web Services
AWS實際上不提供分析服務,AWS主要具有大規(guī)模并行處理框架和計算能力。Amazon Elastic MapReduce創(chuàng)建在Amazon EC2架構下由Hadoop軟件來執(zhí)行的數(shù)據(jù)處理工作流。它會自動按照客戶的需求自動啟動并配置一定數(shù)量的Amazon EC2實例。然后它會產(chǎn)生一個根據(jù)MapReduce編程模型的Hadoop實現(xiàn),通過它從Amazon S3中讀取大量的用戶輸入數(shù)據(jù),并將他們分攤給生成的Amazon EC2實例去進行并行處理。同AWS的服務一樣,Amazon Elastic MapReduce的客戶只需要為他們使用的部分付費。
HPCC Systems
Hadoop依靠兩個核心組件來存儲和處理海量數(shù)據(jù)——Hadoop分布式文件系統(tǒng)和Hadoop Mapreduce。Cloudant公司CEO Mike Miller認為MapReduce在編寫并行處理工作流時依然相對復雜,HPCC旨在通過ECL(Enterprise Control Language)改善這一局面。HPCC提供兩種數(shù)據(jù)處理和服務的方式——Thor Data Refinery Cluster和Roxy Rapid Data Delivery Cluster。Escalante表示如此命名是因為其能像Thor(北歐神話中司雷、戰(zhàn)爭及農(nóng)業(yè)的神)一樣解決困難的問題,Thor主要用來分析和索引大量的Hadoop數(shù)據(jù)。而Roxy則更像一個傳統(tǒng)的關系型數(shù)據(jù)庫或數(shù)據(jù)倉庫,甚至還可以處理Web前端的服務。雖然沒有深入探討HPCC存儲組件的細節(jié),但Escalante表示HPCC基于分布式文件系統(tǒng),并可支持各種off-node存儲架構和本地的SSD。HPCC系統(tǒng)已經(jīng)在金融業(yè)和其他重要的行業(yè)中普遍應用。(李智/編譯)
原文鏈接:gigaom