云端的大數(shù)據(jù)就像科幻小說里對未來的描繪一樣:它在這,只是不是很均勻地分布罷了。
高調(diào)的廠商,比如AWS、谷歌、微軟、IBM和Rackspace等,都提供云基礎的Hadoop和NoSQL數(shù)據(jù)庫平臺來支持大數(shù)據(jù)應用程序。很多初創(chuàng)公司都引入了云平臺上的管理服務,按需部署自己的系統(tǒng)。大數(shù)據(jù)和云計算的融合往往是互聯(lián)網(wǎng)公司的首先項,尤其是初創(chuàng)的軟件和數(shù)據(jù)服務供應商。
但很多主流公司并不像互聯(lián)網(wǎng)公司那樣看重云端數(shù)據(jù)管理。一些公司擔心云端的數(shù)據(jù)安全和隱私保護。一些公司還在大型機和其他本地系統(tǒng)里運行大部分操作。存儲在本地的數(shù)據(jù)量之大,讓數(shù)據(jù)遷移充滿挑戰(zhàn)。另外,現(xiàn)存數(shù)據(jù)中心可用的處理能力讓AWS和谷歌等公有云的成本優(yōu)勢不值一提,即使公司對于云系統(tǒng)所謂的降低成本、增加彈性有興趣,最終也未必會選擇它。
花旗集團就是一個例子。隨著網(wǎng)絡成為普及的應用界面,金融服務公司面對的是洪水般的非結構化數(shù)據(jù)。它還需要處理線上金融應用程序中不同的數(shù)據(jù)結構。這些挑戰(zhàn)讓花旗集團最后選擇了MongoDB NoSQL數(shù)據(jù)庫。MongoDB獲得了AWS和其他云平臺的支持?;ㄆ鞌?shù)據(jù)公司負責平臺工程的全球領導者Michael Simone表示,花旗選擇了在云端應用該軟件。不過它應用的是私有云,應用限定在紐約公司的防火墻內(nèi),由它的IT部門全權管理。
在紐約的MongoDB大會上,Simone告訴與會者:“目前,我們還沒有擴展私有云或集成公有云的打算?;ㄆ旒瘓F的數(shù)據(jù)中心很大,技術積累也很深厚,我們可以構建自己的內(nèi)部部署的云計算。”
大數(shù)據(jù)云才剛剛開始
總體來看,在云端運行大數(shù)據(jù)系統(tǒng)仍然是小眾行為。在數(shù)據(jù)倉庫研究院開發(fā)的大數(shù)據(jù)成熟度模型中,十個月內(nèi)有222名IT和業(yè)務專家完成了線上測評,只有19%的人表示它們的組織在用公有云、私有云和混合云支持大數(shù)據(jù)應用程序。另有40%的人表示正在考慮云部署,同時有超過三分之一的人表示它們沒有使用云計算的計劃。在企業(yè)管理協(xié)會和9sight咨詢公司開展的線上調(diào)查中,云計算使用比例略高:259名受訪者中,39%的人表示他們的大數(shù)據(jù)安裝包括云系統(tǒng)。
WeatherChannel公司是采用了公有云的案例,Basho技術公司在AWS可用性區(qū)域的多個分區(qū)運行了Basho技術公司的NoSQL數(shù)據(jù)庫Riak的復制實例,處理和存儲來自衛(wèi)星、雷達系統(tǒng)、天氣站等來源的混合數(shù)據(jù)。該數(shù)據(jù)庫每五分鐘就為預測引擎更新3萬6千多地理天氣網(wǎng)格的視圖,它還用于歸檔歷史數(shù)據(jù)。
美國TWC公司執(zhí)行副總裁兼CIO Bryson Koehler認為,Riak的容錯技術和同時支持內(nèi)存和硬盤存儲的功能特別好。經(jīng)過比較,因為處理效果低,主流關系型數(shù)據(jù)庫并不能適應高容量的云環(huán)境,至少不能以較低的成本適應高容量的云環(huán)境。
但是,在云端部署NoSQL軟件也是旨在擴大TWC靈活性的更廣泛的IT戰(zhàn)略的題中之義。公司在谷歌云和AWS上運行應用程序,以免被任何供應商或技術鎖定。
云計算:更多選擇 更多可能
公有云供應商已經(jīng)為了滿足大數(shù)據(jù)需求,已經(jīng)擴展了數(shù)據(jù)管理能力,不止包含關系型數(shù)據(jù)庫。例如,亞馬遜近幾年拓寬了AWS云選項,包含了很多新興技術,比如NoSQL數(shù)據(jù)庫DynamoDB、Hadoop部署ElasticMapReduce和ElastiCache內(nèi)存緩存服務、Redshift數(shù)據(jù)倉庫和Kinesis流數(shù)據(jù)系統(tǒng)。
美國咨詢公司Cloud Technology Partners高級副總裁DavidLinthicum表示:“AWS和其他云供應商也創(chuàng)建了相當成熟的服務。一些可用的數(shù)據(jù)管理云平臺已經(jīng)發(fā)展到第五代第六代了。”
對于擁有強大的內(nèi)部處理能力的大公司來說,給大數(shù)據(jù)管理池增加云基礎的系統(tǒng)并不是必須的。美國云服務咨詢公司Nimbo的首席基礎架構師Aaron Ebertowski表示:“為什么要企業(yè)定購它們已經(jīng)有了的東西呢?企業(yè)已經(jīng)在存儲架構投了成百上千美元,不會輕易舍棄的。”
業(yè)績要求也是公有云不受大數(shù)據(jù)用戶青睞的原因之一。加拿大海洋網(wǎng)絡(ONC)是一家非營利性機構,該機構管理著英屬哥倫比亞的一對海洋氣象臺,計劃建立一個公司內(nèi)部私有云,為使用海洋傳感器提供數(shù)據(jù)的應用模擬地震和海嘯創(chuàng)造條件。
目標在于更加準確地預測可能發(fā)生的自然災害帶來的后果,為政府當局采取預防措施緩解自然災害給人們帶來的影響,Benoit Pirenne這樣說道,他是ONC的數(shù)字基礎設施主管。
需求——充足的大數(shù)據(jù)力量
該機構位于維多利亞大學,去年春天得到了一項三年項目的批準和資金支持。計劃進行的分析工作包括收集傳感器的多次測定結果,運行預測模型以得出可能發(fā)生的所有情況集。但是完成這項工作需要大量數(shù)據(jù)和強大的計算能力,Pirenne說道。