云計算大潮有沒有退去暫時誰也說不好,而就著名研究機構(gòu)Gartner的最新調(diào)查報告顯示,云計算領域還將保持增長趨勢,而增長的幅度將會放緩,畢竟云計算已經(jīng)風風火火了不少時間。而今,和云計算同樣沒有明確定義的一個新概念越來越流行——“大數(shù)據(jù)”。而且大數(shù)據(jù)已經(jīng)開始改變了IT格局,根據(jù)Gartner的數(shù)據(jù)顯示,僅2012年大數(shù)據(jù)就帶動全球280億美元的IT支出,2013年帶動的IT支出規(guī)模可望進一步增至340億美元。而放眼目前IT巨頭多是出手延伸整個產(chǎn)業(yè)鏈,很少有只撰于產(chǎn)業(yè)鏈中某一環(huán)節(jié)的企業(yè),但是現(xiàn)在卻有這樣一個公司只專注大數(shù)據(jù),讓我們走近臺灣精誠集團云中心,走近Big Data事業(yè)部即Etu(“知意圖”公司)負責人蔣居裕先生。
回頭看 誰走在大數(shù)據(jù)的前面?
大數(shù)據(jù)論起源肯定是美國,也流行于美國,并不是因為美國的技術(shù)有多么發(fā)達,而是因為他們有用戶量巨大的互聯(lián)網(wǎng)服務基礎。社交網(wǎng)絡、物聯(lián)網(wǎng)、電子商務起步早,移動設備普及度高等“先天”因素也讓他們的數(shù)據(jù)不再“單純”,而且單純的數(shù)據(jù)格式也無法滿足這些業(yè)務需要。結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的三種類型中,結(jié)構(gòu)化數(shù)據(jù)目前的傳統(tǒng)RDBMS的技術(shù)(關系型數(shù)據(jù)庫管理系統(tǒng))相對于其他技術(shù)來說成熟而且性能優(yōu)勢明顯,而對于其他兩種形式的數(shù)據(jù),目前解決方案仍然處于成長甚至是剛剛起步階段。
對于大數(shù)據(jù)的產(chǎn)生,可以說毫無疑問的要歸功于互聯(lián)網(wǎng)公司,但實際上并不是只有互聯(lián)網(wǎng)公司才用到大數(shù)據(jù),當下的銀行、保險類金融業(yè)企業(yè)、電信運營商、某些制造業(yè)領域的企業(yè)、醫(yī)療行業(yè)等都是大數(shù)據(jù)的真實而直接的用戶?,F(xiàn)在互聯(lián)網(wǎng)、電子商務、快消業(yè)的企業(yè)因為數(shù)據(jù)量增長最為迅速,而使得他們的需求走在了大數(shù)據(jù)的最前端。蔣居裕先生認為這些公司或多或少都有自己的解決方案和技術(shù),而從美國的經(jīng)驗來看,大數(shù)據(jù)處理平臺中一個主流處理技術(shù)Hadoop,雖然不是唯一的解決方案,卻成為主要的解決方案之一,尤其是2006年被開源以后,近6、7年的發(fā)展日趨穩(wěn)定。
破解大數(shù)據(jù)誤區(qū) Etu提出一體化解決方案
盡管有人說大數(shù)據(jù)和云計算是截然不同的兩個概念,但是不可否認的是二者有著很多交集,甚至是“大數(shù)據(jù)離不開云”的意味。從硬件層上說分布式存儲、虛擬化服務器的彈性支持等都是云計算的重要特性,但也正因如此很多人產(chǎn)生了一些誤區(qū)。
·誤區(qū)一、“大數(shù)據(jù)就是存儲”,一種新的存儲技術(shù)。
而實際上這種“誤區(qū)”只是認識的片面,主要在于大數(shù)據(jù)的存儲是基礎,而更重要的是處理工作,畢竟存儲是為進一步處理做準備。所以從這個角度來看,一般人的理解有些錯誤。所以請記住大數(shù)據(jù)一定是存儲跟計算同時要發(fā)生的。
誤區(qū)二、行業(yè)受眾小,并非廣泛適用。
雖然大數(shù)據(jù)起源互聯(lián)網(wǎng),但因為異構(gòu)數(shù)據(jù)的存在,很多傳統(tǒng)行業(yè)其實需求更加迫切。像圖形、圖像識別等領域、自動控制領域很多場景都需要大數(shù)據(jù)的幫助。
當然,還有人會認為結(jié)構(gòu)化數(shù)據(jù)處理起來相對容易,用不到“大數(shù)據(jù)”的概念,或者大數(shù)據(jù)處理可能只是BI,為企業(yè)提供商業(yè)智能。蔣居裕先生認為除了BI之外,有時候需要做文字或者圖形上的搜索;同樣,還有一些來自改善用戶體驗使用的,比如運營商、金融保險類公司。在蔣居裕先生的觀點中,對數(shù)據(jù)進行了一個分層描述:
頂層:Hot Data,這是比較熱的數(shù)據(jù),它的實時需求最高,在查詢之后幾秒鐘就要得到結(jié)果;
中層:Warm Data,有一點溫度的,它需要隨時查詢,它處理的時候不需要幾秒鐘得到結(jié)果;
底層:Cold Data,這類數(shù)據(jù)最大的特性就是看起來我不會再用到它,只需要從起來就可以了。
而這三層數(shù)據(jù)中,最容易做的其實就是底層冷數(shù)據(jù)Cold Data,只要條件允許,這部分數(shù)據(jù)可以一直沉淀在磁盤上。最直接的入手點就是頂層,大量數(shù)據(jù)挖掘、數(shù)據(jù)倉儲的案例和解決方案讓基于關系型的Hot Data容易被應用。當然完成這所有三層數(shù)據(jù)的處理工作,已經(jīng)說明這家公司有一套數(shù)據(jù)生命周期管理。但重點還是會回到數(shù)據(jù)本身上,這些所有的數(shù)據(jù)可以做什么?保存這么數(shù)據(jù)到底有多大價值?也許這個問題在于是如何找出你跟同行之間不同、如何提供與競爭對手不同服務,讓用戶體驗與同行之間的出發(fā)點上。而目前市場來看雖然很多企業(yè)有這個需求,但是大部分大數(shù)據(jù)解決方案都是以項目形式體現(xiàn),沒有一個產(chǎn)品化或者針對某個行業(yè)而推出的標準產(chǎn)品推出,這讓更多的用戶很難去說清楚自己的需求,也對技術(shù)實現(xiàn)本身產(chǎn)生了巨大的阻礙,蔣居裕先生認為這樣的現(xiàn)狀催生了我們推出大數(shù)據(jù)一體機Etu Appliance的原因之一。Etu其實也是希望通過這樣的方式將軟/硬件一體的方式交付給用戶,用產(chǎn)品化的形式推動大數(shù)據(jù)市場。