8月19-20日,由工業(yè)和信息化部批準,中國通信學會主辦,中國電信、中國移動、中國聯(lián)通協(xié)辦,信通創(chuàng)展承辦的2014中國國際大數(shù)據(jù)大會在京成功召開。下面是工信部電信研究院高巍在“聯(lián)合變革 開放創(chuàng)新”分會場的演講。
高?。?/p>
今天演講的主題是《大數(shù)據(jù)產(chǎn)業(yè)進展和發(fā)展策略的思考》,我們研究院2012年開始在大數(shù)據(jù)方面進行了持續(xù)的研究,今天我也希望借這個機會分享一下我們的研究成果和想法。
今天的演講一共是這么三個部分:一個是大數(shù)據(jù)發(fā)展的脈搏,第二個是我們目前所看到的大數(shù)據(jù)技術、產(chǎn)業(yè)和應用發(fā)展的進展,第三點是大數(shù)據(jù)發(fā)展政策及思考。
首先,簡單看一下所謂大數(shù)據(jù)的起源和斷代。自從人類有了文明之后就開始有了數(shù)據(jù),當然大數(shù)據(jù)也是隨著人們文明不斷的演化。我們現(xiàn)在所說的大數(shù)據(jù),當然是從計算機計算技術出現(xiàn)之后,才出現(xiàn)的概念。
從50年代開始計算機技術得以發(fā)展,至今我們是以處理結構化數(shù)據(jù)的脈絡,一直到90年代提出數(shù)據(jù)倉儲、數(shù)據(jù)挖掘、BI的概念,實際還是沿著結構化數(shù)據(jù)的脈絡。我們說,99-00年左右,互聯(lián)網(wǎng)的爆發(fā)增長體現(xiàn)出了現(xiàn)在的態(tài)勢,一個是數(shù)據(jù)量的增大,99-00年web網(wǎng)頁的數(shù)量達到了40億,達到了TD級的數(shù)據(jù)。另外,web出現(xiàn)之后,給互聯(lián)網(wǎng)帶來了富媒體的內(nèi)容,帶來了更多的數(shù)據(jù)。
我們覺得,除了這些基本的特性之外,我們還需要從一些理念的高度去理解大數(shù)據(jù),現(xiàn)在的信息社會,信息當中蘊含著很多價值,像金礦一樣,我們原來沒有手段和工具去挖掘,而現(xiàn)在要長期這樣的工具。原來我們依靠單機的數(shù)據(jù)庫方式,可能并不是非常好的工具,而現(xiàn)在有自動的智能深度分析,這樣的工具出現(xiàn),使我們逐漸有了能力挖掘大數(shù)據(jù)。
我們?nèi)绾慰创龜?shù)據(jù)本身?傳統(tǒng)的方式,可能大家在很多場合也提到,傳統(tǒng)的方式是抽樣,但現(xiàn)在由于工具的改變,技術的提升,我們可以以全級的方式分析數(shù)據(jù),同時我們分析的時候是尋找數(shù)據(jù)的相關關系,就是我們對待數(shù)據(jù)的理念上產(chǎn)生了變化。
下面,簡單分享一下我們對大數(shù)據(jù)技術應用的看法。
從數(shù)據(jù)的技術角度,大致就這三個層面:第一個是預處理,數(shù)據(jù)的抽取、數(shù)據(jù)的轉(zhuǎn)換、數(shù)據(jù)的加載。第二個是數(shù)據(jù)經(jīng)過預處理之后進行存儲、計算、分析的過程,這是數(shù)據(jù)價值戰(zhàn)斗的過程。第三個是數(shù)據(jù)的可視化,我們?nèi)绾伟褦?shù)據(jù)轉(zhuǎn)換成大眾易于理解、易于形成決策的方式,類似我們在春節(jié)的時候新聞中不斷在放百度對春運的大數(shù)據(jù)。
現(xiàn)在的大數(shù)據(jù)處理跟傳統(tǒng)的數(shù)據(jù)處理還是同樣這三個環(huán)節(jié),只不過因為現(xiàn)在一是數(shù)據(jù)量的爆發(fā),第二是非結構化數(shù)據(jù)的引入,第三是對處理需求的出現(xiàn),使得不同環(huán)節(jié)在技術上面對不同的挑戰(zhàn)。
首先主要的挑戰(zhàn)在于不是結構化數(shù)據(jù),而是來自于不同的數(shù)據(jù)源,或者多模態(tài)的數(shù)據(jù),這些數(shù)據(jù)是非結構化數(shù)據(jù)的,如何進行統(tǒng)一的關鍵數(shù)據(jù)抽取,這是現(xiàn)在面臨的一個挑戰(zhàn)。另外是數(shù)據(jù)的存儲,現(xiàn)在互聯(lián)網(wǎng)數(shù)據(jù)以PB級計算,如果還是用傳統(tǒng)的存儲方式,包括IO性能和成本上都沒辦法承載。所以,現(xiàn)在提出了低成本基于分布式的數(shù)據(jù)架構。
同時,這種計算的場景,我們最初在搜索引擎這個時代,其實它并不要求數(shù)據(jù)處理的實時化,它采用的是批處理的方式,我把結果處理出來之后可以提供給他使用。但是,現(xiàn)在在線的應用,需要實時的數(shù)據(jù)處理,甚至還需要對其它不同結構的,包括以圖結構來呈現(xiàn)的數(shù)據(jù)處理,原來以數(shù)據(jù)批處理的方式已經(jīng)不再適用了,現(xiàn)在出現(xiàn)類似于像sdop(音)流式實時處理的架構。
原來結構化數(shù)據(jù)的分析,更多是用原有模型進行分析和處理,但是現(xiàn)在我們面對著大量的非結構化數(shù)據(jù),可能鮮艷的知識模型沒有辦法應對現(xiàn)在這種新的不斷變化的數(shù)據(jù)。那么怎么辦?所以現(xiàn)在出現(xiàn)基于自動化的繼續(xù)學習,使整個數(shù)據(jù)的分析過程,完全實現(xiàn)自動化,不需要人工干預。