近來,云計(jì)算把多數(shù)人搞得暈頭轉(zhuǎn)向,還沒完全消化吸收。大數(shù)據(jù)又來占領(lǐng)新概念的制高點(diǎn),有點(diǎn)你爭我搶的意思。我們不談云計(jì)算,今天就說大數(shù)據(jù)。大數(shù)據(jù)的道理其實(shí)并不復(fù)雜,就當(dāng)前我們談到的大數(shù)據(jù),主要是指隨著PC數(shù)量以及手機(jī)、PDA或者各種信息采集設(shè)備的增加(比如路上的交通視頻監(jiān)控,商場的POS機(jī)或者各種射頻識別設(shè)備),這樣就出現(xiàn)兩種情況,一種是數(shù)據(jù)量增大,而且是呈幾何級數(shù)增加。另一種是非結(jié)構(gòu)化數(shù)據(jù)很多,比如彩信,博客評論,日志,聊天記錄等,因?yàn)檫@些信息中可能有用數(shù)據(jù)較少,或者短期有用信息少(相關(guān)內(nèi)容以后會有專門文章論述)。所以大數(shù)據(jù)的問題是兩個,第一是如何存儲這么多的數(shù)據(jù),第二是如何開發(fā)利用這些數(shù)據(jù)為企業(yè)或者組織服務(wù)。
最近,有幸采訪到國家統(tǒng)計(jì)局?jǐn)?shù)據(jù)管理處處長梁達(dá)敏先生,他向我們介紹了統(tǒng)計(jì)局目前的狀態(tài)。就統(tǒng)計(jì)局而言,一方面,社會對我們的數(shù)據(jù)要求越來越大,也越來越細(xì),必然有挑戰(zhàn)。另一面,數(shù)據(jù)采集手段(如各種傳感器的物聯(lián)、移動設(shè)備等)和數(shù)據(jù)存儲手段(高速網(wǎng)絡(luò)、云存儲等)的快速發(fā)展,給統(tǒng)計(jì)工作提供了機(jī)遇。
統(tǒng)計(jì)局的數(shù)據(jù)分成幾級,從最初的基層企業(yè)到主管部門,再到地方政府,然后上報(bào)國家統(tǒng)計(jì)局。而這一過程很可能會因?yàn)槎喾N原因而出現(xiàn)數(shù)據(jù)誤差,所以現(xiàn)在統(tǒng)計(jì)局的下一個目標(biāo)是減少整個上報(bào)流程,讓環(huán)節(jié)減少,這樣上報(bào)的時間也會變短,提高效率的同時也增加的數(shù)據(jù)的可靠性。當(dāng)然,這樣做后更多的數(shù)據(jù)就會集中到統(tǒng)計(jì)局這里,從信息化的角度來說這樣會成為一個數(shù)據(jù)大集中的問題,過去一層一層的,它的原始數(shù)據(jù)都是存在各級的統(tǒng)計(jì)局,那么省里可能有一些原始數(shù)據(jù),那么就是一個匯總的數(shù)據(jù)上來,所以國家局對很多數(shù)據(jù)很難控制?,F(xiàn)在我們就把企業(yè)端直接報(bào)送到國家局這一塊,這樣的話就從業(yè)務(wù)上提高數(shù)據(jù)的準(zhǔn)確性,那么從IT上面就涉及到數(shù)據(jù)大存儲的問題。那么在解決這個問題上我們有兩個想法,第一肯定是立項(xiàng)要建一個這樣大的這種存儲中心,異地備份中心這樣一個機(jī)構(gòu),那么現(xiàn)在我們還是很務(wù)實(shí)的,我們現(xiàn)在只是大家對統(tǒng)計(jì)局有了解的人知道,統(tǒng)計(jì)局是分好幾個地區(qū)辦公的,那我們只先做一個簡單的這樣一個同城異地的簡單備份,這是目前在做的一個事情。
這其中我們會首先理清社會對數(shù)據(jù)的需求,按數(shù)據(jù)的使用需求,梳理清楚數(shù)據(jù)的“分級”,規(guī)劃好數(shù)據(jù)的在線、近線和離線;第二、有良好的數(shù)據(jù)開發(fā)能力。這是我們的工作重點(diǎn)重點(diǎn)。
然后第二個事情我們現(xiàn)在有一個考慮,就是利用這樣一個外包的方式,就是利用公共的資源,首先要保證安全這是肯定的,這個信息的數(shù)據(jù)的安全,其實(shí)很多我不知道在座多少是企業(yè)多少是政府的,在政府很多人用這個理由就是說不行我的數(shù)據(jù)必須是獨(dú)立建設(shè)這樣的中心也好,備份中心也好,為什么?因?yàn)槲业臄?shù)據(jù)涉及到保密問題,就是如果有這樣國家有關(guān)部門認(rèn)證的有關(guān)部門我們是不是可以去利用?這樣是對整個資源的一個節(jié)省,就是減少我們投資。
當(dāng)然這樣就存在安全的問題,因?yàn)榘踩桶l(fā)展永遠(yuǎn)是一對矛盾。無論安全與否,無論數(shù)據(jù)或大或小,數(shù)據(jù)業(yè)務(wù)總是要做的,安全跟上就行。核心的機(jī)密的數(shù)據(jù),不會有那么大的量,而且可以分離存儲。把所有數(shù)據(jù)混為一談,是敷衍搪塞。另外,建立有安全認(rèn)證資質(zhì)的、企業(yè)運(yùn)營的云中心,是必要的也是可行的,技術(shù)安全和基礎(chǔ)設(shè)施安全會作的更好,服務(wù)起碼與自管相當(dāng),覺得這種方式有危險(xiǎn)是我們的思想在作怪,需要慢慢改變。
總結(jié)來說,大數(shù)據(jù)時代肯定會到來,我們好好規(guī)劃,好好利用先進(jìn)的手段,希望統(tǒng)計(jì)局的數(shù)據(jù)能更加及時準(zhǔn)確的反應(yīng)各方面的情況,更好得服務(wù)人民大眾。