中國IDC圈1月7日?qǐng)?bào)道,1月5-7日,第十屆中國IDC產(chǎn)業(yè)年度大典(IDCC2015)在北京國家會(huì)議中心隆重召開。本次大會(huì)由中國信息通信研究院、云計(jì)算發(fā)展與政策論壇、數(shù)據(jù)中心聯(lián)盟指導(dǎo),中國IDC產(chǎn)業(yè)年度大典組委會(huì)主辦,中國IDC圈承辦,并受到諸多媒體的大力支持。
中國IDC產(chǎn)業(yè)年度大典作為國內(nèi)云計(jì)算和數(shù)據(jù)中心領(lǐng)域規(guī)模最大、最具影響力的標(biāo)志性盛會(huì),之前已成功舉辦過九屆,在本屆大會(huì)無論是規(guī)格還是規(guī)模都"更上一層樓",引來現(xiàn)場(chǎng)人員爆滿,影響力全面覆蓋數(shù)據(jù)中心、互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)等多個(gè)領(lǐng)域。
數(shù)據(jù)中心聯(lián)盟大數(shù)據(jù)工作組組長魏凱出席IDCC2015大會(huì)并在大數(shù)據(jù)應(yīng)用與安全技術(shù)論壇發(fā)表主題為《大數(shù)據(jù)的價(jià)值探索與實(shí)踐》的精彩演講。
數(shù)據(jù)中心聯(lián)盟大數(shù)據(jù)工作組組長魏凱
以下為魏凱演講實(shí)錄:
大家好,我是信息通信研究院的魏凱,我同時(shí)在數(shù)據(jù)中心聯(lián)盟大數(shù)據(jù)工作組工作,今天題目是大數(shù)據(jù)應(yīng)用與安全,跟大家探討三部分,一是我們對(duì)大數(shù)據(jù)產(chǎn)業(yè)技術(shù)發(fā)展的概覽,大家做安全的同時(shí)對(duì)大數(shù)據(jù)有主要的了解,分享一下我們的主要觀點(diǎn)。二是我們?cè)鹤稣咧蔚臅r(shí)候了解到的信息,國家現(xiàn)在在做大數(shù)據(jù)的國家戰(zhàn)略,工信部大數(shù)據(jù)產(chǎn)業(yè)的十三五規(guī)劃的最新進(jìn)展和政策考慮,有些與安全有關(guān)。三是數(shù)據(jù)中心聯(lián)盟和我們?cè)鹤龅呐c大數(shù)據(jù)有關(guān)的工作,看看大家有沒有結(jié)合點(diǎn)。
第一,不管是國內(nèi)還是國外,大數(shù)據(jù)這個(gè)產(chǎn)業(yè)有誰在玩,有三個(gè)環(huán)節(jié),第一個(gè)環(huán)節(jié)是數(shù)據(jù)資源,大數(shù)據(jù)如果沒有數(shù)據(jù)的話是無米之炊的事情。怎么來擁有和獲取這些數(shù)據(jù),我待會(huì)兒會(huì)詳細(xì)地說每個(gè)環(huán)節(jié)有什么問題。第二個(gè)環(huán)節(jié),有了數(shù)據(jù)以后怎么用很好的很便宜的系統(tǒng)把它存下來,分布式的集群把它管起來,用先進(jìn)的算法把它挖掘出來。第三個(gè)環(huán)節(jié)是應(yīng)用和服務(wù)的環(huán)節(jié),我們從產(chǎn)值的分布來看是依次在增加,前兩個(gè)環(huán)節(jié)對(duì)國內(nèi)做了一個(gè)統(tǒng)計(jì),統(tǒng)計(jì)大數(shù)據(jù)的產(chǎn)值有多大,前兩個(gè)環(huán)節(jié)全球200億美元,中國100億人民幣,如果把第三個(gè)環(huán)節(jié)算上非常大,很多咨詢機(jī)構(gòu)和政府智庫都在評(píng)估大數(shù)據(jù)對(duì)國家?guī)淼慕?jīng)濟(jì)效益有多大,大概是GDP的2%,那是非常大的。中國GDP如果乘以2%是非常大的量。大數(shù)據(jù)整個(gè)產(chǎn)業(yè)有很強(qiáng)的外部效應(yīng)。
我詳細(xì)說一下每個(gè)環(huán)節(jié)存在什么問題。第一個(gè)環(huán)節(jié)是數(shù)據(jù),我們跟很多做大數(shù)據(jù)的公司,包括應(yīng)用部門、技術(shù)提供部門都在討論,數(shù)據(jù)是極度不均衡的,需要數(shù)據(jù)的人拿不到數(shù)據(jù)非常著急,結(jié)構(gòu)性短缺問題非常嚴(yán)重,其實(shí)每個(gè)企業(yè)的數(shù)據(jù)都在暴增,書到用時(shí)方恨少,數(shù)據(jù)也是一樣的,有這樣一個(gè)現(xiàn)象就是結(jié)構(gòu)性短缺。結(jié)構(gòu)性短缺有兩個(gè)不正常的狀態(tài),兩個(gè)極端,一個(gè)極端是很多希望拿到數(shù)據(jù)的,比如銀行希望拿到客戶的數(shù)據(jù)對(duì)數(shù)據(jù)進(jìn)行精準(zhǔn)的分析,做征信的評(píng)估,但很難從各個(gè)渠道獲取很全的數(shù)據(jù)。要數(shù)據(jù)的人拿不到,數(shù)據(jù)死鎖在政府部門,死鎖在數(shù)據(jù)擁有的企業(yè)手里。另外是無序的,黑市上的數(shù)據(jù)交易非常多,個(gè)人信息的泄露經(jīng)常發(fā)生。我們覺得是兩個(gè)極端現(xiàn)象,是不正常的現(xiàn)象,應(yīng)該是中間狀態(tài),像水龍頭一樣,需要的時(shí)候開,不需要的時(shí)候關(guān)掉,這應(yīng)該是有序流動(dòng)的狀態(tài),這是一個(gè)理想狀態(tài),但現(xiàn)在做不到。
企業(yè)獲取數(shù)據(jù)非常困難,不光是小企業(yè),大企業(yè)也一樣,這里列舉了幾種,一些大銀行、大企業(yè)獲取數(shù)據(jù)都有什么招術(shù)。有七八種招術(shù),跟別人合作,自己建平臺(tái),建電商平臺(tái),獲取政府開放的數(shù)據(jù)。跟企業(yè)合作成本是非常高的,你想買數(shù)據(jù),有數(shù)據(jù)的人是很猶豫的,擔(dān)心產(chǎn)權(quán)糾紛。等數(shù)據(jù)開放是等不起的,國家在綱要里提了2018年要建一個(gè)大數(shù)據(jù)的統(tǒng)一開放平臺(tái),阻力非常大。數(shù)據(jù)的獲取非常成問題。交易所是非常好的途徑,各地每個(gè)月都會(huì)成立一個(gè)大數(shù)據(jù)交易所,地方政府領(lǐng)導(dǎo)非常熱衷于交易所的成立,現(xiàn)在運(yùn)行在制度真空的條件下非常令人擔(dān)憂,里面有很多問題,特別是權(quán)力、責(zé)任、利益的分割,在數(shù)據(jù)交易的事情里沒有清晰地討論清楚,基本是建立在沙灘蓋樓的狀態(tài),很多理論上的問題沒有解決,比如產(chǎn)權(quán)的界定很模糊。這是我們看到的數(shù)據(jù)的問題。
大數(shù)據(jù)技術(shù),2000年左右到現(xiàn)在技術(shù)更替非???,特別是底層技術(shù)沒幾年就會(huì)來一輪新的變化,我們認(rèn)為大概經(jīng)歷了三個(gè)階段,九十年代很多企業(yè)做數(shù)據(jù)分析都是用原來的數(shù)據(jù)庫,這種情況下成本非常高,2000年左右,谷歌等大的互聯(lián)網(wǎng)公司發(fā)明了新技術(shù),用Hadoop,用非關(guān)系型數(shù)據(jù)庫做數(shù)據(jù)分析,解放了很多限制,一下子把工程師的思路打開了,可以放松一致性的要求,讓我的吞吐量變得非常高,成本下降非??欤@是NoSQL的興起。2010年以后,在互聯(lián)網(wǎng)公司的教育下,傳統(tǒng)企業(yè)認(rèn)識(shí)到大數(shù)據(jù)的平臺(tái)對(duì)他是有價(jià)值的,對(duì)他在未來是有戰(zhàn)略性的事情。對(duì)傳統(tǒng)公司、傳統(tǒng)行業(yè)來說,大數(shù)據(jù)的門檻非常高,因?yàn)樗麄儧]有Hadoop的程序員,沒有NoSQL的程序員,應(yīng)用還是跑在SQL上,沒有辦法遷移到JAVA平臺(tái)說,應(yīng)用起來慣性非常強(qiáng)。2010年以后討論最多的就是怎么給Hadoop加上SQL接口,讓分布式的平臺(tái)能兼容以前的使用習(xí)慣,甚至讓應(yīng)用無感知地運(yùn)營在Hadoop上,這是第三個(gè)階段的輪回,放棄了Hadoop?,F(xiàn)在更熱的是把Hadoop當(dāng)做數(shù)據(jù)庫來用,不管企業(yè)級(jí)軟件還是應(yīng)用開發(fā)很重要的方向。