8月19-20日,由工業(yè)和信息化部批準(zhǔn),中國(guó)通信學(xué)會(huì)主辦,中國(guó)電信、中國(guó)移動(dòng)、中國(guó)聯(lián)通協(xié)辦,信通創(chuàng)展承辦的2014中國(guó)國(guó)際大數(shù)據(jù)大會(huì)在京成功召開(kāi)。下面是工信部電信研究院高巍在“聯(lián)合變革 開(kāi)放創(chuàng)新”分會(huì)場(chǎng)的演講。
高?。?/p>
今天演講的主題是《大數(shù)據(jù)產(chǎn)業(yè)進(jìn)展和發(fā)展策略的思考》,我們研究院2012年開(kāi)始在大數(shù)據(jù)方面進(jìn)行了持續(xù)的研究,今天我也希望借這個(gè)機(jī)會(huì)分享一下我們的研究成果和想法。
今天的演講一共是這么三個(gè)部分:一個(gè)是大數(shù)據(jù)發(fā)展的脈搏,第二個(gè)是我們目前所看到的大數(shù)據(jù)技術(shù)、產(chǎn)業(yè)和應(yīng)用發(fā)展的進(jìn)展,第三點(diǎn)是大數(shù)據(jù)發(fā)展政策及思考。
首先,簡(jiǎn)單看一下所謂大數(shù)據(jù)的起源和斷代。自從人類有了文明之后就開(kāi)始有了數(shù)據(jù),當(dāng)然大數(shù)據(jù)也是隨著人們文明不斷的演化。我們現(xiàn)在所說(shuō)的大數(shù)據(jù),當(dāng)然是從計(jì)算機(jī)計(jì)算技術(shù)出現(xiàn)之后,才出現(xiàn)的概念。
從50年代開(kāi)始計(jì)算機(jī)技術(shù)得以發(fā)展,至今我們是以處理結(jié)構(gòu)化數(shù)據(jù)的脈絡(luò),一直到90年代提出數(shù)據(jù)倉(cāng)儲(chǔ)、數(shù)據(jù)挖掘、BI的概念,實(shí)際還是沿著結(jié)構(gòu)化數(shù)據(jù)的脈絡(luò)。我們說(shuō),99-00年左右,互聯(lián)網(wǎng)的爆發(fā)增長(zhǎng)體現(xiàn)出了現(xiàn)在的態(tài)勢(shì),一個(gè)是數(shù)據(jù)量的增大,99-00年web網(wǎng)頁(yè)的數(shù)量達(dá)到了40億,達(dá)到了TD級(jí)的數(shù)據(jù)。另外,web出現(xiàn)之后,給互聯(lián)網(wǎng)帶來(lái)了富媒體的內(nèi)容,帶來(lái)了更多的數(shù)據(jù)。
我們覺(jué)得,除了這些基本的特性之外,我們還需要從一些理念的高度去理解大數(shù)據(jù),現(xiàn)在的信息社會(huì),信息當(dāng)中蘊(yùn)含著很多價(jià)值,像金礦一樣,我們?cè)瓉?lái)沒(méi)有手段和工具去挖掘,而現(xiàn)在要長(zhǎng)期這樣的工具。原來(lái)我們依靠單機(jī)的數(shù)據(jù)庫(kù)方式,可能并不是非常好的工具,而現(xiàn)在有自動(dòng)的智能深度分析,這樣的工具出現(xiàn),使我們逐漸有了能力挖掘大數(shù)據(jù)。
我們?nèi)绾慰创龜?shù)據(jù)本身?傳統(tǒng)的方式,可能大家在很多場(chǎng)合也提到,傳統(tǒng)的方式是抽樣,但現(xiàn)在由于工具的改變,技術(shù)的提升,我們可以以全級(jí)的方式分析數(shù)據(jù),同時(shí)我們分析的時(shí)候是尋找數(shù)據(jù)的相關(guān)關(guān)系,就是我們對(duì)待數(shù)據(jù)的理念上產(chǎn)生了變化。
下面,簡(jiǎn)單分享一下我們對(duì)大數(shù)據(jù)技術(shù)應(yīng)用的看法。
從數(shù)據(jù)的技術(shù)角度,大致就這三個(gè)層面:第一個(gè)是預(yù)處理,數(shù)據(jù)的抽取、數(shù)據(jù)的轉(zhuǎn)換、數(shù)據(jù)的加載。第二個(gè)是數(shù)據(jù)經(jīng)過(guò)預(yù)處理之后進(jìn)行存儲(chǔ)、計(jì)算、分析的過(guò)程,這是數(shù)據(jù)價(jià)值戰(zhàn)斗的過(guò)程。第三個(gè)是數(shù)據(jù)的可視化,我們?nèi)绾伟褦?shù)據(jù)轉(zhuǎn)換成大眾易于理解、易于形成決策的方式,類似我們?cè)诖汗?jié)的時(shí)候新聞中不斷在放百度對(duì)春運(yùn)的大數(shù)據(jù)。
現(xiàn)在的大數(shù)據(jù)處理跟傳統(tǒng)的數(shù)據(jù)處理還是同樣這三個(gè)環(huán)節(jié),只不過(guò)因?yàn)楝F(xiàn)在一是數(shù)據(jù)量的爆發(fā),第二是非結(jié)構(gòu)化數(shù)據(jù)的引入,第三是對(duì)處理需求的出現(xiàn),使得不同環(huán)節(jié)在技術(shù)上面對(duì)不同的挑戰(zhàn)。
首先主要的挑戰(zhàn)在于不是結(jié)構(gòu)化數(shù)據(jù),而是來(lái)自于不同的數(shù)據(jù)源,或者多模態(tài)的數(shù)據(jù),這些數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù)的,如何進(jìn)行統(tǒng)一的關(guān)鍵數(shù)據(jù)抽取,這是現(xiàn)在面臨的一個(gè)挑戰(zhàn)。另外是數(shù)據(jù)的存儲(chǔ),現(xiàn)在互聯(lián)網(wǎng)數(shù)據(jù)以PB級(jí)計(jì)算,如果還是用傳統(tǒng)的存儲(chǔ)方式,包括IO性能和成本上都沒(méi)辦法承載。所以,現(xiàn)在提出了低成本基于分布式的數(shù)據(jù)架構(gòu)。
同時(shí),這種計(jì)算的場(chǎng)景,我們最初在搜索引擎這個(gè)時(shí)代,其實(shí)它并不要求數(shù)據(jù)處理的實(shí)時(shí)化,它采用的是批處理的方式,我把結(jié)果處理出來(lái)之后可以提供給他使用。但是,現(xiàn)在在線的應(yīng)用,需要實(shí)時(shí)的數(shù)據(jù)處理,甚至還需要對(duì)其它不同結(jié)構(gòu)的,包括以圖結(jié)構(gòu)來(lái)呈現(xiàn)的數(shù)據(jù)處理,原來(lái)以數(shù)據(jù)批處理的方式已經(jīng)不再適用了,現(xiàn)在出現(xiàn)類似于像sdop(音)流式實(shí)時(shí)處理的架構(gòu)。
原來(lái)結(jié)構(gòu)化數(shù)據(jù)的分析,更多是用原有模型進(jìn)行分析和處理,但是現(xiàn)在我們面對(duì)著大量的非結(jié)構(gòu)化數(shù)據(jù),可能鮮艷的知識(shí)模型沒(méi)有辦法應(yīng)對(duì)現(xiàn)在這種新的不斷變化的數(shù)據(jù)。那么怎么辦?所以現(xiàn)在出現(xiàn)基于自動(dòng)化的繼續(xù)學(xué)習(xí),使整個(gè)數(shù)據(jù)的分析過(guò)程,完全實(shí)現(xiàn)自動(dòng)化,不需要人工干預(yù)。
最后就是數(shù)據(jù)的可視化,如何能夠?qū)崿F(xiàn)直觀的用戶可以理解的結(jié)果,這是由于數(shù)據(jù)產(chǎn)生的方式,數(shù)據(jù)本身形態(tài)的變化,使得大數(shù)據(jù)技術(shù)不斷進(jìn)展。從技術(shù)本身來(lái)看,我們認(rèn)為大數(shù)據(jù)技術(shù)的發(fā)展和創(chuàng)新,呈現(xiàn)這樣三個(gè)階梯的狀態(tài),從原創(chuàng)技術(shù)到開(kāi)源社區(qū),到最后的產(chǎn)品。其實(shí),對(duì)應(yīng)到我們產(chǎn)業(yè)界,對(duì)應(yīng)著不同的企業(yè)群體,跟大家現(xiàn)在所看到的,這個(gè)數(shù)據(jù)分析的基礎(chǔ)是Google04年通過(guò)幾篇論文提出來(lái)的。實(shí)際上,Google在2000年之前已經(jīng)擁有這些技術(shù),三四年之后他通過(guò)學(xué)術(shù)論文的方式把這種技術(shù)和思想公開(kāi)出來(lái),當(dāng)然由這個(gè)技術(shù)公開(kāi)之后形成開(kāi)源社區(qū)的版本,可能又過(guò)了3-4年的時(shí)間。所以說(shuō),從原創(chuàng)到最后的開(kāi)源,中間會(huì)有5-6年的時(shí)間差。