中國電子學(xué)會云計算專家委員會名譽主任委員、中國大數(shù)據(jù)專家委員會顧問、中國工程院院士李德毅在題為“大數(shù)據(jù)挖掘”的演講中重點強調(diào):PB時代是對科學(xué)的挑戰(zhàn),更是對包括數(shù)據(jù)挖掘在內(nèi)的認(rèn)知科學(xué)的挑戰(zhàn)。大數(shù)據(jù)標(biāo)志一個新時代的到來。這個時代的特征不只是追求豐富的物質(zhì)資源,也不只是無所不在的互聯(lián)網(wǎng)帶來的方便的多樣化信息服務(wù),同時還包含區(qū)別于物質(zhì)的數(shù)據(jù)資源的價值挖掘和價值轉(zhuǎn)換,以及由大數(shù)據(jù)挖掘帶來的精神和文化方面的嶄新現(xiàn)象。
以下為演講實錄:
李德毅:各位同仁,尤其是年輕的IT工作者們,很高興在這里跟大家分享我對云計算和大數(shù)據(jù)的一些認(rèn)識。我的報告題目是“大數(shù)據(jù)挖掘”。
自從大數(shù)據(jù)引入了人們的視線之后,人們普遍講的是三個字“大數(shù)據(jù)”。它講的是PB時代的科學(xué),本質(zhì)上大數(shù)據(jù)的挑戰(zhàn)是PB時代的科學(xué)的挑戰(zhàn)。在這么一個大數(shù)據(jù)時代怎么做數(shù)據(jù)挖掘呢?
人們用很多的面來形容大數(shù)據(jù),其實大數(shù)據(jù)的主要來源有三個方面,第一就是這個地球,自然界的大數(shù)據(jù),這么多的衛(wèi)星繞著地球轉(zhuǎn),我們看看每天要下載多少數(shù)據(jù)量?生命大數(shù)據(jù)、生物大數(shù)據(jù),尤其是每一個人體的大數(shù)據(jù)也是一個重要的來源。對于我們IT工作者來說,我們更關(guān)心的是社交大數(shù)據(jù),每天你拿著手機、拿著筆記本來回折騰了半天,這些數(shù)據(jù)對你起作用了嗎?
PB時代對科學(xué)的挑戰(zhàn)更是對包括數(shù)據(jù)挖掘在內(nèi)的認(rèn)知科學(xué)的挑戰(zhàn)。奧巴馬就職演說當(dāng)中,每一個人后面都有大數(shù)據(jù)的支撐,我點到誰,你就能告訴我他的大數(shù)據(jù)嗎?一個人,一個社會的活動人非常了不起,他有他的身份、情感、職業(yè)、年齡、性格等等,假如現(xiàn)在給你一張全家福,你能不能從他們的人臉識別當(dāng)中告訴我誰是兒媳婦、誰是女婿?
這么多人臉下,怎么把人臉識別清楚呢?現(xiàn)在我們北京市有80萬個攝像頭,每天照著我們大家,我們可以利用攝像頭做身份認(rèn)證、年齡識別、情感計算、親緣發(fā)現(xiàn)、心理識別、地區(qū)識別、民族識別,都很有用處。這種流媒體主要的形態(tài)是非結(jié)構(gòu)化的,特征之間的關(guān)聯(lián)關(guān)系、設(shè)備算法的準(zhǔn)確率等等,都嚴(yán)重的制約著大數(shù)據(jù)人臉挖掘的進度。
由技術(shù)推動的計算機發(fā)展
那么怎么辦?我們還是要回歸一下計算機所發(fā)展的歷史,1936年天才數(shù)學(xué)家圖靈提出來一個圖靈模型,后來有一個計算機,把圖靈模型轉(zhuǎn)化為物理計算機,有三大塊,一塊叫做CPU,操作系統(tǒng),還有一大塊叫做內(nèi)存和外存,還有一塊就是輸入和輸出。在計算機發(fā)展的頭一個30年里,我們感興趣最多的是CPU、是操作系統(tǒng),是軟件、是中間件、是應(yīng)用軟件。這時候代表信息技術(shù)發(fā)展速度的可以用摩爾速度來表示,它告訴我們微電子發(fā)展是18個月可以翻一番的,所以我們側(cè)重于計算性能的提高,我們把這個時代叫做計算時代,計算,尤其是高性能計算機,人們花了很大的精力研究,它帶動了存儲,也帶動了輸入輸出,這個時間大概用了三四十年。計算領(lǐng)先、存儲交互也跟著發(fā)展。
在這樣一個計算領(lǐng)先當(dāng)中,我們主要做的是結(jié)構(gòu)化數(shù)據(jù)的挖掘,我們要提起一個偉大的學(xué)者,他的名字叫埃德加,他在1970年提出一個關(guān)系模型,用二維表形式表示實體與實體間的聯(lián)系。三四十年來,各行各業(yè)的數(shù)據(jù)庫和數(shù)據(jù)倉庫技術(shù),以及從數(shù)據(jù)庫發(fā)現(xiàn)知識的數(shù)據(jù)挖掘成為巨大的信息產(chǎn)業(yè)。關(guān)于數(shù)據(jù)庫之父,美國工程院院士獲獎了1980年的圖靈獎,他這篇論文是1970年寫的,講的是共享數(shù)據(jù)銀行的關(guān)系。關(guān)系數(shù)據(jù)庫有嚴(yán)格的頂層設(shè)計,為構(gòu)造良式關(guān)系,必須消除元組中不合適的依據(jù)依賴。我們每一個IT計算機本科生都學(xué)過這樣的技術(shù),對這樣的關(guān)系運算,結(jié)果仍然是關(guān)系。
關(guān)系代數(shù)是關(guān)系數(shù)據(jù)庫的形式化理論和約束,先有頂層設(shè)計和數(shù)據(jù)結(jié)構(gòu),后填入清洗后的數(shù)據(jù)。數(shù)據(jù)圍繞結(jié)構(gòu)轉(zhuǎn),數(shù)據(jù)圍繞程序轉(zhuǎn)。用戶無需關(guān)心數(shù)據(jù)的獲取,存儲、分析以及提取過程。通過數(shù)據(jù)挖掘,可以從數(shù)據(jù)庫中發(fā)現(xiàn)分類知識、關(guān)聯(lián)知識,時序知識、異常知識等等。
隨著數(shù)據(jù)庫產(chǎn)業(yè)的膨大,人們對數(shù)據(jù)庫已經(jīng)不太滿足了,于是把Databases說成是大數(shù)據(jù),但是不管怎么大,遇到了兩個不可回避的挑戰(zhàn),第一是由于關(guān)系代數(shù)的形式化約束過于苛刻,無法表示現(xiàn)實數(shù)據(jù)怎么辦?第二個挑戰(zhàn),隨著數(shù)據(jù)量的增大,關(guān)系代數(shù)運算性能急劇下降,如果是一個TB的關(guān)系數(shù)據(jù)庫,兩個表做一個交易,要幾十個小時,人們?nèi)淌懿涣?,這兩個挑戰(zhàn)就意味著心里方法的存在。就在這個時候,我們的存儲技術(shù)得到了迅猛發(fā)展,大家知道,存儲、內(nèi)存、外存、硬盤越來越普遍了,當(dāng)上海俞正聲書記提出1+TB的時候,這個錢誰來買單?現(xiàn)在我們可能都有一兩個TB,一個TB400塊錢就買到了,所以人類進入了搜索時代。搜索因為存儲便宜了,存儲的速度大概每9個月翻一番,這在中國也好、全世界也好,誰能干就多干一點活,所以存儲帶動了技術(shù)的腳步,這種搜索時代經(jīng)過了20多年,于是我們進入了一個半結(jié)構(gòu)化數(shù)據(jù)挖掘時代。這個時代代表人物就是萬維網(wǎng)之父Tim,他提出了超文本思想,開發(fā)了世界上第一個Web服務(wù)器,于是我們可以從一臺服務(wù)器上檢索另一臺服務(wù)器的內(nèi)容,服務(wù)器在軟件支持下可發(fā)布包括文本、表格、圖片、音視頻的碎片化超媒體信息。