在“2011中國云計算與云服務(wù)發(fā)展高峰論壇”上,北京云基地副總經(jīng)理做了以“大數(shù)據(jù)時代的大智慧”為主題的演講,以下為演講實錄。
大家下午好!感謝這么多同事下午可以回到這個會場。先介紹一下我們云基地,云基地是一個組織,田總就是我們基地的帶頭人,以資金加基地的這種新的產(chǎn)業(yè)模式投資了13家公司,從基礎(chǔ)設(shè)施,比如集裝箱式的數(shù)據(jù)中心到SaaS的軟件,我們今天的題目是比較專的在某一個領(lǐng)域,因為這一兩年我們發(fā)展很快,從去年10月份以來,已經(jīng)產(chǎn)生了很多的經(jīng)濟效益,投產(chǎn)的這些服務(wù)器也有了一定的規(guī)模。但是我們也看到了在大規(guī)模上IDC數(shù)據(jù)中心的同時,什么是真正驅(qū)動我們能夠讓云計算真正落地,能夠給國家做出一些貢獻,下面我給大家分享一下我們云基地在云計算這個領(lǐng)域里我們會著重在哪些領(lǐng)域中做貢獻。
在前全球化背景下,田總現(xiàn)在正在硅谷跟比較前沿的北美廠商談合作,談收購情況。整個產(chǎn)業(yè)鏈已經(jīng)豐滿了,但是我們也看到云計算目前離我們大規(guī)模的建設(shè)還有一定的障礙和周期,我分享一個報告,是什么因素在影響著我們呢?比如說安全性等各種各樣的問題。IaaS我們從去年10月份到現(xiàn)在已經(jīng)做了幾個大的成功案例,我們已經(jīng)獲得了一些經(jīng)驗,但同時也碰到了一些問題,最近一些財報也暴露出一個問題,在沒有形成規(guī)模效應(yīng)之前,它的盈利模式是值得懷疑的?,F(xiàn)在利潤額下降了,云計算是最大的一塊問題。
走過IaaS這個層面之后,云計算到底能提供哪些內(nèi)容?這個周期可能發(fā)展得很快,國內(nèi)有一些先進的廠商,比如上午提到的云快線,已經(jīng)提供了IaaS的服務(wù)規(guī)模,那么下一波的云計算大潮在哪里?今天許主任也講了大數(shù)據(jù)大經(jīng)濟,其實我今天想談的是大數(shù)據(jù)。大數(shù)據(jù)是北美目前最熱的一個話題,他們那邊有很多研討會,跟大數(shù)據(jù)相關(guān)的不同層面的應(yīng)用廠商也出現(xiàn)了,所以我們看一下這個“大數(shù)據(jù)”。
什么是大數(shù)據(jù)?IDC給的這個Forecast,什么是EB呢?現(xiàn)在的數(shù)據(jù)九年以后只有2%,我還看到另外一組數(shù)據(jù),是在微博上看到的,還沒有考證,寫的是未來20萬家庭上網(wǎng)量,可以看到數(shù)據(jù)是非常迅猛的增長。這個數(shù)據(jù)如果不用的話就是垃圾,是存在數(shù)據(jù)中心里的垃圾,我們怎么能把它從數(shù)據(jù)變成信息,從信息來產(chǎn)生價值?這就是我們要談的云計算的一個新的核心生產(chǎn)力,是大數(shù)據(jù)的一個利用。
麥肯錫今年4月份給了一個報告,這不是一個IT報告,是一個經(jīng)濟模型的分析,詳盡闡述了幾個行業(yè)中數(shù)據(jù)本身對整個經(jīng)濟的影響。給大家分享一下,比如說在醫(yī)療這個行業(yè),大數(shù)據(jù)本身按麥肯錫的規(guī)劃,能夠產(chǎn)生3000億美金的生產(chǎn)力,相當(dāng)于西班牙整個醫(yī)療行業(yè)的投資規(guī)模的兩倍。公共事業(yè)上,相當(dāng)于2500億歐元,基本等于希臘的GDP了。從全球的角度去看,針對這些數(shù)據(jù)產(chǎn)生的經(jīng)濟價值評估是6000億美金,由此產(chǎn)生的工作崗位在北美有14萬個,就是與數(shù)據(jù)評估相關(guān)的崗位,數(shù)據(jù)本身就在創(chuàng)造著經(jīng)濟效益。
數(shù)據(jù)有什么樣的特性呢?我們也看看,在云時代開始關(guān)注數(shù)據(jù)本身。這里舉一個例子,北美的一家醫(yī)院,這個醫(yī)院已經(jīng)普遍開始使用社區(qū)網(wǎng)絡(luò)了,也就是某一個醫(yī)生的醫(yī)囑不是寫在紙質(zhì)的憑證上,而是寫在了他的Twitter上,還有他個人的網(wǎng)頁,blog。相應(yīng)的這些信息是作為醫(yī)療診斷,這靠傳統(tǒng)的IT系統(tǒng)是無法獲取的。一些專業(yè)的數(shù)據(jù)庫層面的體系肯定是不可能捕捉到這些其他社區(qū)網(wǎng)絡(luò)上的信息,所以大數(shù)據(jù)本身也存在著一些挑戰(zhàn)。
第二個挑戰(zhàn)是數(shù)據(jù)的海量特性。我們也看到一個人一生可能產(chǎn)生一個PE的數(shù)據(jù),包括你喜歡的第一本書,第一個音樂,或者某一個片斷,或者給子女照的照片,或者是有紀(jì)念意義的票據(jù),這些信息都存儲出來,每個人都可以達到一個PE,在這個環(huán)境下涉及到的不是容量問題,而是怎么能夠放進去,怎么能拿回來。
我昨天看了一條信息,是亞馬遜評估存儲能量,沒有用的是PE級別的概念,他們有4500億個對象,用這種來描述。為什么這種描述呢?這是新型的機制,就是怎么能放進去也能怎么拿出來,上百萬的東西中可以挑出來這就是新一代存儲方式的挑戰(zhàn)。
同時,也出現(xiàn)了經(jīng)濟本身的創(chuàng)新,出現(xiàn)了新的經(jīng)濟形態(tài)。比如說像Twitter,上次北京經(jīng)貿(mào)委也談過,頭一天正好是李娜獲得冠軍,她拿到冠軍之后五分鐘之內(nèi)新浪微博有30萬的轉(zhuǎn)發(fā)。這么多的信息本身,從政府職能角度,怎么控制這些信息?怎么利用這些信息?比如做輿情分析系統(tǒng),當(dāng)時也跟北京經(jīng)貿(mào)委談了。這些系統(tǒng)可以幫助你在公共事件出現(xiàn)的時候,我們不能總是在事后做,通過這些信息本身的跟蹤和挖掘,我們可以做前期的工作。
同時,我們也和運營商討論過,也和移動溝通過,有很多基于數(shù)據(jù)本身的,我們現(xiàn)在做的項目就是提供智能分析,做行為性的分析。對政府而言,比如房地產(chǎn)交易,還有公共事業(yè)中我們也做了一些成功案例,比如智能電網(wǎng)領(lǐng)域,每個信息都是局部計算之后實現(xiàn)總體提交,以前通過傳統(tǒng)的架構(gòu)操作這么大規(guī)模的數(shù)據(jù)是不可能的,這些都必須使用的是云技術(shù)的大數(shù)據(jù)技術(shù)。
我們再看大數(shù)據(jù)技術(shù)是不是陽春白雪?大家每天都看財經(jīng)新聞,上面每滾動的數(shù)據(jù),比如石油為什么是117美金而不是116美金?再進一步說希臘,主權(quán)基金調(diào)低了兩個級,他們的能量要比美國軍隊的能量還大,是怎么實現(xiàn)的?他們是什么樣子的規(guī)模呢?比如17000個,可以在10萬個處理器上實現(xiàn)作業(yè),同時在小于一個小毫秒之內(nèi)來實現(xiàn),突破了傳統(tǒng)的數(shù)據(jù)中心的結(jié)構(gòu)框架。為什么會有SNP的時代?我們這一代是在SNP的時代成長起來的,就是因為它足夠的快,足夠強大。如果云技術(shù)組織起來上千臺的服務(wù)器,所獲得的計算能力是更大的。
如何讓大數(shù)據(jù)本身產(chǎn)生大智慧?我們探討一下云基地在這個層面上涉足了哪些領(lǐng)域。我們定義出了很多領(lǐng)域可以去涉及,比如說右上角的產(chǎn)品,就是個人云,我們收購的一些小公司,跟芬蘭的一些廠商也有一些合作?;A(chǔ)設(shè)施本身這四塊,包括基礎(chǔ)架構(gòu),我們的目標(biāo)是做亞洲最大,北京市政府也投資,目前是6萬多臺的產(chǎn)能,規(guī)劃產(chǎn)能是50萬臺服務(wù)器,同時還有基礎(chǔ)設(shè)施,集裝箱,還有像虛擬化產(chǎn)品,虛擬化平臺,我們的領(lǐng)先性也是比較強的。我們內(nèi)部也實現(xiàn)了自動部署工具,這是在基礎(chǔ)架構(gòu)層面。
另外兩塊就是我們所關(guān)注的云計算和數(shù)據(jù)存儲,云計算這塊目前已經(jīng)有了兩家公司在做這方面的產(chǎn)品。
我們看到這個領(lǐng)域是非常熱的,分成了幾大分支,(算法交易)我們涉及到更多的是SOA,這個領(lǐng)域做得比較多一些。這么多應(yīng)用原來是跑在服務(wù)器上,我們怎么讓它去優(yōu)化?這是需要考慮的關(guān)鍵,就是如何讓它的處理能力更大。我們跟廠商在談的時候,他們說我們現(xiàn)在的股票交易,這些交易只能做不大,如果能突破這種方式,就是作業(yè)能不能被碎片化,有了這個幫他實現(xiàn)分布式計算。傳統(tǒng)的業(yè)務(wù),右面紅色標(biāo)志的是可以被云化的業(yè)務(wù),交易類型的比如說復(fù)雜事件處理的應(yīng)用,還有像交易本身的分析以及行為本身的數(shù)據(jù),這些都是大數(shù)據(jù)所涉及到的應(yīng)用領(lǐng)域。目前大數(shù)據(jù)方向,幾大公司在上面投入比較多,也都不是一些草臺班子,田總投資的都是北美的一些團隊。
我們可以提供兩方面的優(yōu)化體制,比如說現(xiàn)在很多企業(yè)都在是使用分布式計算,開源是幫助大家最先嘗試的方式,但是開源本身沒有擴展能力,沒有企業(yè)級的一些特性,我們基地分裝了很多樣本,做出了一個平臺,就是客戶本人不需要自己寫代碼,我們幫助你做事業(yè)實踐,這是目前可以實現(xiàn)的商業(yè)實踐機制。
另一種就是比較顛覆性的,就是我們用新的峰值計算加上存儲機制來實現(xiàn)。我們可以看到這個圖,左右對比就是傳統(tǒng)存儲和新一代存儲的特性,傳統(tǒng)存儲做不了太大,如果再擴展怎么實現(xiàn)?因為內(nèi)部存的都是一些數(shù)據(jù),而不是信息。什么是信息呢?當(dāng)我把這些信息加上描述性標(biāo)簽之后,我知道這是什么內(nèi)容以后才是信息,所以我們用信息存儲區(qū)別于傳統(tǒng)的模式。有了這個容器以后,完全是一個扁平的架構(gòu),經(jīng)過跨省、跨地域,這樣就可以實現(xiàn)底層呼叫,突破容量的限制。
上次就可以實現(xiàn)分布式計算平臺來交易,比如說右面的這個藍圖,我用了很多術(shù)語,可能大家聽得比較頭疼,如果看得清楚的話可以看到這個,一個簡單的例子,怎么數(shù)出這里面有多少個三角形方塊,如果數(shù)左邊,我們用分布式框架拆開很多,自己先數(shù)自己的,最后合并一下,這種計算方式就是屬于分布式計算。比如說房地產(chǎn)交易,我不需要把所有數(shù)據(jù)匯總到數(shù)據(jù)中心里面去計算,大型數(shù)據(jù)庫中去計算,這是不現(xiàn)實的,現(xiàn)在很多運營商也看到了,根本沒有這個能力把這么多的數(shù)據(jù)全部入庫。怎么做呢?就是在本地,在各個房交所里去算,這種方式就是充分利用本地資源以及利用廉價的平臺資源來實現(xiàn)的。跟傳統(tǒng)的結(jié)構(gòu)的差異就是左邊這個圖,這個結(jié)構(gòu)不是過去的結(jié)構(gòu),是兩種使用方向。左邊的更多是看到應(yīng)用服務(wù)器,右邊面對的是什么?是商業(yè)邏輯。這兩個是不一樣,計算量非常龐大,這就是云計算所帶來的特點。
這種框架有什么好處?我拿醫(yī)療行業(yè)舉一個例子,比如區(qū)域醫(yī)療,大家想怎么做疾病防護,從一家醫(yī)院走到另外一家醫(yī)院的時候,原來的X光片怎么可以繼續(xù)使用?是存在了某一個系統(tǒng)里通過數(shù)據(jù)庫來管理?,F(xiàn)在區(qū)域醫(yī)療很難做融合,如果使用了這種新的結(jié)構(gòu),每一個X光片不需要數(shù)據(jù)庫了,就像谷歌看網(wǎng)頁一樣,怎么找到網(wǎng)頁?這種扁平結(jié)構(gòu)就是我們所采用的。直接體Web的界面之后通過互聯(lián)網(wǎng)的方式直接獲取到你所需要的數(shù)據(jù),數(shù)據(jù)中心沒有必要獨立建立一套系統(tǒng),你就可以在數(shù)據(jù)中心獲取到不同的定制的這些視頻。
這是我給大家分享我們目前在大數(shù)據(jù)領(lǐng)域的一些技術(shù)實現(xiàn)和一些成功的案例。
云基地這個想法按我們帶頭人田總的相比,就是要用書本的價格獲得數(shù)據(jù)中心的計算能力,這是它他的使命。他上一個使命是希望所有人都能上互聯(lián)網(wǎng),他幫助網(wǎng)通上市已經(jīng)成功,現(xiàn)在第三次產(chǎn)業(yè)希望帶著云基地這幾十家公司,幫助大家用更加低廉的成本獲取北美這些超大型數(shù)據(jù)中心的能力。
這就是我們基地的情況,謝謝大家!