互聯(lián)網(wǎng)的發(fā)展使得大數(shù)據(jù)引起人們廣泛關(guān)注?,F(xiàn)如今大數(shù)據(jù)技術(shù)早已滲透到金融、通訊等行業(yè)以及生物學(xué)、物理學(xué)等領(lǐng)域。大數(shù)據(jù)在容量、多樣性和高增速方面的爆炸式增長(zhǎng)全面考驗(yàn)著現(xiàn)代企業(yè)的數(shù)據(jù)處理和分析能力,與此同時(shí)也為各個(gè)行業(yè)帶來(lái)了準(zhǔn)確洞察市場(chǎng)行為的機(jī)會(huì)。迄今為止大數(shù)據(jù)技術(shù)與產(chǎn)品有哪些創(chuàng)新,工業(yè)大數(shù)據(jù)應(yīng)用面臨哪些挑戰(zhàn),金融行業(yè)大數(shù)據(jù)應(yīng)用現(xiàn)狀如何等。圍繞這一系列問(wèn)題,4月27日至28日,由工業(yè)和信息化部指導(dǎo)、中國(guó)信息通信研究院主辦的"2016大數(shù)據(jù)產(chǎn)業(yè)峰會(huì)"在北京國(guó)際會(huì)議中心盛大召開。會(huì)上中國(guó)工程院院士鄔賀銓跟與會(huì)人員分享了大數(shù)據(jù)技術(shù)發(fā)展的趨勢(shì)。
中國(guó)工程院院士鄔賀銓
以下是鎢賀銓演講實(shí)錄:
鎢賀銓:很高興來(lái)到大數(shù)據(jù)產(chǎn)業(yè)峰會(huì),我想就大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)及影響談一下我的看法。我們先看一下數(shù)據(jù)挖掘的過(guò)程,從數(shù)據(jù)資源、數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)傳送到數(shù)據(jù)分享、數(shù)據(jù)挖掘、數(shù)據(jù)呈現(xiàn)、數(shù)據(jù)應(yīng)用,產(chǎn)業(yè)、安全、法規(guī)人才。這并不是所有的數(shù)據(jù)都要拿來(lái)挖掘的,首先要進(jìn)行取樣分析,首先在選擇數(shù)據(jù)的時(shí)候要進(jìn)行提取,標(biāo)簽化。對(duì)一些非結(jié)構(gòu)化的數(shù)據(jù)還要進(jìn)行變換處理,然后分類收集,最后抽取出原數(shù)據(jù),然后把原數(shù)據(jù)再融合,這個(gè)過(guò)程還是要反饋的。我們首先看數(shù)據(jù)融合,傳感器的數(shù)據(jù)是物理空間的數(shù)據(jù),網(wǎng)絡(luò)空間的細(xì)分空間,還有政府企業(yè)收集的相關(guān)數(shù)據(jù)。
2013年,全世界來(lái)自消費(fèi)企業(yè)的數(shù)據(jù)占三分之一,當(dāng)然數(shù)據(jù)里頭很多國(guó)家安全、個(gè)人隱私的這些數(shù)據(jù)不能開放的。大數(shù)據(jù)里頭有一部分的數(shù)據(jù)是開放的,當(dāng)然數(shù)據(jù)本身有結(jié)構(gòu)化的、非結(jié)構(gòu)化的、半結(jié)構(gòu)化的。我們?cè)賮?lái)看大數(shù)據(jù)分析的流程,實(shí)際上所謂大數(shù)據(jù)很多時(shí)候既很難說(shuō)它什么時(shí)候開始,也很難說(shuō)它什么時(shí)候會(huì)結(jié)束。在整個(gè)數(shù)據(jù)獲取的過(guò)程中是不斷的流進(jìn)來(lái)的,我們要通過(guò)分析模型來(lái)引導(dǎo)和收集。過(guò)去我們的收據(jù)是代數(shù)據(jù)進(jìn)行,現(xiàn)在數(shù)據(jù)是活的,我們只能帶程序進(jìn)數(shù)據(jù)。我以阿里云的大數(shù)據(jù)平臺(tái)為例,它底層有計(jì)算引擎,上面有數(shù)據(jù)的開發(fā)和加速,有數(shù)據(jù)管理、數(shù)據(jù)資料保障,數(shù)據(jù)監(jiān)控。當(dāng)然用到機(jī)器學(xué)習(xí),在上層是應(yīng)用開發(fā),這里面可能根據(jù)你需要的選擇規(guī)則,準(zhǔn)備分析,還有評(píng)價(jià)或者是推薦優(yōu)選,可視化、具體人群,識(shí)別文字、識(shí)別語(yǔ)音。最后是面向解決方案的,究竟是面向智能支付,還是企業(yè)的精準(zhǔn)營(yíng)銷,還有交通路況預(yù)測(cè),以及我們監(jiān)控的安全預(yù)警等。
我們?cè)倏?,大?shù)據(jù)需要實(shí)時(shí)抽取,這里面左邊的照片在羅馬,這是拍到的古羅馬的移植。如果我希望凝了解當(dāng)時(shí)古羅馬的樣子,可以把分散的照片以及留下來(lái)的一些照片聚合起來(lái),可以形成一個(gè)古羅馬的最后的全貌。這是用到信息融合技術(shù)。它把分散的數(shù)據(jù)集合成一個(gè)全集的數(shù)據(jù)。以下的兩張圖是一樣的,右邊的屏蔽掉我所不關(guān)注的部分,然后抽取我所關(guān)注的部分。在繁雜的大數(shù)據(jù)中,我需要信息抽取來(lái)抽取我所感興趣的數(shù)據(jù)。
大數(shù)據(jù)還要做到可視化,這是交通數(shù)據(jù)的可視化,也是以色列的克拉維夫,它有很多攝像頭,傳統(tǒng)的攝像頭是分散的,孤立的,現(xiàn)在通過(guò)大數(shù)據(jù)的可視化的技術(shù)把它組合成一張圖,不同的十年,路上的狀況不一樣,用不同的顏色標(biāo)注交通管制,等等。
我們?cè)倏幢本㏄M2.5,去年P(guān)M2.5超標(biāo),有些人懷疑自己肺有毛病,到醫(yī)院做了幾個(gè)CT,醫(yī)生看分散的CP照片是很難的,希望通過(guò)虛擬化把它還原成一個(gè)肺,再看看有沒有纖維化。甚至可以用AR和ER的技術(shù)深入的研究,身上有沒有病灶和毛病,等等。還有交通的路礦預(yù)測(cè),以及我們監(jiān)控的安全預(yù)警等等,當(dāng)然了,面向媒體、能源、交通,所以大數(shù)據(jù)里頭主要的有計(jì)算引擎、數(shù)據(jù)開發(fā)和運(yùn)用開發(fā)加速。
我們?cè)倏纯磾?shù)據(jù)挖掘的算法,首先要通過(guò)合并壓縮轉(zhuǎn)換,然后是統(tǒng)計(jì)分析、支持發(fā)現(xiàn)可視化,最后是規(guī)則、分論、緒論、序列、路徑,涉及到一大堆的算法,我們可以看到這里面有數(shù)據(jù)獲取,然后轉(zhuǎn)化與存儲(chǔ),然后數(shù)據(jù)虛擬化和摘要,最后是決策分析。需要用到一些軟件。大數(shù)據(jù)首先是計(jì)算問(wèn)題,是不是所有數(shù)據(jù)都可以計(jì)算呢?不一定,有些數(shù)據(jù)是可以判定的,它是容易解釋的,可以有多項(xiàng)算法來(lái)解釋,但是有些數(shù)據(jù)是比較難解的,這里頭有一類是不可近似的,有一類是可近似的,我們可以看到我們首先要探索數(shù)據(jù)復(fù)雜性的規(guī)律和關(guān)系的生成機(jī)理,建立數(shù)據(jù)復(fù)雜性的理論和模型,這里面包括數(shù)據(jù)的結(jié)構(gòu)和學(xué)習(xí),最后還要把數(shù)據(jù)簡(jiǎn)化。所以,美國(guó)加州大學(xué)圖像可視化中心已經(jīng)組成了語(yǔ)音非結(jié)構(gòu)化數(shù)據(jù)?,F(xiàn)在我們高校在大數(shù)據(jù)研究上還可以,但是做一些數(shù)據(jù)分析的單位沒有數(shù)據(jù),而擁有數(shù)據(jù)的單位有些不會(huì)分析。