隨著大數(shù)據(jù)的趨勢(shì)和大數(shù)據(jù)的現(xiàn)狀,確實(shí)也給企業(yè)帶來了很多問題,包括一些挑戰(zhàn),大數(shù)據(jù)在那里,我也知道它的價(jià)值,那么我怎么去通過大數(shù)據(jù)來發(fā)掘出它對(duì)我企業(yè)能夠制定更好的方針和政策,如何去更好的處理實(shí)時(shí)的數(shù)據(jù),通過我剛才講的產(chǎn)業(yè)鏈,采集、存儲(chǔ)、處理、分析各個(gè)方面,最后如何通過更好的工具去分析,我把這些數(shù)據(jù)可視化。這些都是擺在企業(yè)面前的一個(gè)挑戰(zhàn)和創(chuàng)新。
大數(shù)據(jù)確實(shí)是給企業(yè)、給世界、給IT,包括政府在內(nèi),提供了很多的機(jī)遇。其中之一,就是對(duì)于企業(yè)的決策,任何一個(gè)企業(yè)的決策,他通過什么去保證他能夠制定更好的方針和政策,我想這個(gè)東西不能只是拍拍腦袋,要根據(jù)一些真憑實(shí)據(jù),現(xiàn)在有這么好的數(shù)據(jù)資源,怎么更好的利用,這是很重要的。大家可以看到,將近50%以上,現(xiàn)在在世界的各個(gè)企業(yè)的領(lǐng)導(dǎo)者都知道怎么去應(yīng)用大數(shù)據(jù)來做企業(yè)規(guī)劃和戰(zhàn)略的制定。同時(shí),大數(shù)據(jù)是一個(gè)產(chǎn)業(yè)鏈,這個(gè)產(chǎn)業(yè)鏈不光是虛擬的概念,它同時(shí)也帶動(dòng)了不光是在軟件上,IT的服務(wù)、軟件的開發(fā),包括硬件,我剛才講了,大數(shù)據(jù)離不開硬件的基礎(chǔ)、計(jì)算、存儲(chǔ),也帶動(dòng)了整個(gè)IT的商業(yè)發(fā)展。
剛才講了一些概念,接下來我會(huì)從大數(shù)據(jù)的生命周期,我們微軟認(rèn)為最主要的三個(gè)階段,來給大家做一些具體的介紹。這三個(gè)生命周期,第一,首先你要把這些數(shù)據(jù)采集起來,通過什么樣的方式。第二,這些數(shù)據(jù)要存儲(chǔ),以什么樣的存儲(chǔ)技術(shù),能夠保證它的安全性,它的不間斷性、可持續(xù)性、擴(kuò)展性。在這個(gè)基礎(chǔ)上,當(dāng)你也了數(shù)據(jù)以后,如何去把這些數(shù)據(jù)做處理,去豐富、去滿足你企業(yè)所想要的要求。最后,如何在這個(gè)基礎(chǔ)上,通過你已經(jīng)處理好的、已經(jīng)整合的、已經(jīng)清理干凈的數(shù)據(jù),來在上面做分析,來做格式化的展現(xiàn)。所以,這三個(gè)我想對(duì)于實(shí)現(xiàn)大數(shù)據(jù)的價(jià)值是非常非常重要的環(huán)節(jié)。
說到存儲(chǔ),大數(shù)據(jù)對(duì)存儲(chǔ)的要求是非常非常高的,我想從簡單的技術(shù)層面來說,你能夠存多大的數(shù)據(jù)量,你數(shù)據(jù)的安全性、不可間斷性、可持久性、擴(kuò)展性,是這些數(shù)據(jù)存儲(chǔ)的基本技術(shù)。從另一點(diǎn)來說,大家又會(huì)面臨一個(gè)問題,也就是說現(xiàn)在大家說到云計(jì)算,一般來說,在一個(gè)IT的應(yīng)用里,在數(shù)據(jù)存儲(chǔ)這塊無非有幾種方式,一種是傳統(tǒng)IT的方式,也就是說每一個(gè)企業(yè)郵自己的數(shù)據(jù)中心,這個(gè)數(shù)據(jù)中心既可以是傳統(tǒng)的物理機(jī)的模式,沒有采用云計(jì)算的技術(shù),也可以是一個(gè)私有云,同時(shí)像徐博士也講了,微軟有自己的公有云,不光是微軟,還有業(yè)界的其他公司也有公有云的這種模式,我也可以通過公有云來存儲(chǔ)管理我的數(shù)據(jù)。這里面有什么區(qū)別呢?我想給大家總結(jié)一下,比較大的區(qū)別,因?yàn)閯偛判觳┦恳膊粩鄰?qiáng)調(diào)安全,我想對(duì)于公有云的模式,實(shí)際上安全包括網(wǎng)絡(luò)上的速度可能是一個(gè)比起私有云和你自己的數(shù)據(jù)中心來講,是一個(gè)你需要考慮的因素。因?yàn)槟阋坏┓旁诠性粕?,你一旦開放了,你一旦通過很多的網(wǎng)絡(luò),通過外網(wǎng)就會(huì)很必然的,特別是數(shù)據(jù)量很大,像大數(shù)據(jù)這么大的數(shù)據(jù)量,各種各樣復(fù)雜的數(shù)據(jù),雖然能夠幫你節(jié)省管理和運(yùn)營的成本,你不需要自己管理運(yùn)營數(shù)據(jù)中心,但是也有它的弊病。從另一點(diǎn)來說,如果是你企業(yè)自己內(nèi)部的一個(gè)內(nèi)網(wǎng)監(jiān)控下的私有云,或者傳統(tǒng)的數(shù)據(jù)中心來說,你可以通過你自己的控制,來保證它的安全,來提高你的效率,特別是數(shù)據(jù)中心的效率。
從這個(gè)角度來說,混合云,在一種混合的模式下可能是一種最好的方式。也就是說對(duì)于大數(shù)據(jù)的處理,你可以根據(jù)企業(yè)的業(yè)務(wù)特性,來制定哪些應(yīng)用、哪些數(shù)據(jù)需要通過私有云的方式,哪些需要放在公有云上,來利用公有云的優(yōu)勢(shì),這樣對(duì)于企業(yè)來說,最后是以私有云的方式來管理存儲(chǔ)大數(shù)據(jù)。
從存儲(chǔ)的角度,我想再回到核心的技術(shù),最主要的有兩點(diǎn),第一,關(guān)系型的數(shù)據(jù)中心,第二,非關(guān)系型數(shù)據(jù)中心。比如說微軟SQLServer已經(jīng)不簡簡單單針對(duì)結(jié)構(gòu)化的數(shù)據(jù),各種各樣的數(shù)據(jù)類型,SQLServer都有這個(gè)能力去處理存儲(chǔ),甚至可以自定義自己的數(shù)據(jù)類型,有些數(shù)據(jù)類型可以通過它提供的技術(shù)自定義,同時(shí)因?yàn)樗顷P(guān)系型數(shù)據(jù)庫,對(duì)于剛才我講的大數(shù)據(jù)、復(fù)雜的數(shù)據(jù),可以利用各種各樣的技術(shù)進(jìn)行查詢、索引,比如剛才講的全文本的查詢、非結(jié)構(gòu)化的屬性的查詢,都可以通過它提供的各種各樣的技術(shù)來管理、存儲(chǔ),來更好的利用這些數(shù)據(jù)。