PB時代是對科學(xué)的挑戰(zhàn),更是對包括數(shù)據(jù)挖掘在內(nèi)的認(rèn)知科學(xué)的挑戰(zhàn)。大數(shù)據(jù)標(biāo)志一個新時代的到來。這個時代的特征不只是追求豐富的物質(zhì)資源,也不只是無所不在的互聯(lián)網(wǎng)帶來的方便的多樣化信息服務(wù),同時還包含區(qū)別于物質(zhì)的數(shù)據(jù)資源的價值挖掘和價值轉(zhuǎn)換,以及由大數(shù)據(jù)挖掘帶來的精神和文化方面的嶄新現(xiàn)象。
自從大數(shù)據(jù)引入了人們的視線之后,人們普遍講的是三個字“大數(shù)據(jù)”。它講的是PB時代的科學(xué),本質(zhì)上大數(shù)據(jù)的挑戰(zhàn)是PB時代的科學(xué)的挑戰(zhàn)。在這么一個大數(shù)據(jù)時代怎么做數(shù)據(jù)挖掘呢?
人們用很多的面來形容大數(shù)據(jù),其實大數(shù)據(jù)的主要來源有三個方面,第一就是這個地球,自然界的大數(shù)據(jù),這么多的衛(wèi)星繞著地球轉(zhuǎn),我們看看每天要下載多少數(shù)據(jù)量?第二是生命大數(shù)據(jù)、生物大數(shù)據(jù),尤其是每一個人體的大數(shù)據(jù)也是一個重要的來源。第三是社交大數(shù)據(jù),每天你拿著手機(jī)、拿著筆記本來回折騰了半天,這些數(shù)據(jù)對你起作用了嗎?
PB時代對科學(xué)的挑戰(zhàn)更是對包括數(shù)據(jù)挖掘在內(nèi)的認(rèn)知科學(xué)的挑戰(zhàn)。奧巴馬就職演說當(dāng)中,每一個人后面都有大數(shù)據(jù)的支撐。一個人,一個社會的活動人非常了不起,他有他的身份、情感、職業(yè)、年齡、性格等等,假如現(xiàn)在給你一張全家福,你能不能從他們的人臉識別當(dāng)中告訴我誰是兒媳婦、誰是女婿?
這么多人臉下,怎么把人臉識別清楚呢?現(xiàn)在北京市有80萬個攝像頭,每天照著大家,我們可以利用攝像頭做身份認(rèn)證、年齡識別、情感計算、親緣發(fā)現(xiàn)、心理識別、地區(qū)識別、民族識別,都很有用處。這種流媒體主要的形態(tài)是非結(jié)構(gòu)化的,特征之間的關(guān)聯(lián)關(guān)系、設(shè)備算法的準(zhǔn)確率等等,都嚴(yán)重的制約著大數(shù)據(jù)人臉挖掘的進(jìn)度。
由技術(shù)推動的計算機(jī)發(fā)展
那么怎么辦呢?我們還是要回歸一下計算機(jī)所發(fā)展的歷史。
1936年天才數(shù)學(xué)家圖靈提出一個圖靈模型,后來有一個計算機(jī),把圖靈模型轉(zhuǎn)化為物理計算機(jī),有三大塊,一塊叫做CPU,操作系統(tǒng),還有一大塊叫做內(nèi)存和外存,還有一塊就是輸入和輸出。在計算機(jī)發(fā)展的頭一個30年里,我們感興趣最多的是CPU、是操作系統(tǒng),是軟件、是中間件、是應(yīng)用軟件。這時候代表信息技術(shù)發(fā)展速度的可以用摩爾速度來表示,它告訴我們微電子發(fā)展是18個月可以翻一番的,所以我們側(cè)重于計算性能的提高,我們把這個時代叫做計算時代,計算,尤其是高性能計算機(jī),人們花了很大的精力研究,它帶動了存儲,也帶動了輸入輸出,這個時間大概用了三四十年。計算領(lǐng)先、存儲交互也跟著發(fā)展。
在這樣一個計算領(lǐng)先當(dāng)中,我們主要做的是結(jié)構(gòu)化數(shù)據(jù)的挖掘,我們要提起一個偉大的學(xué)者,他的名字叫埃德加,他在1970年提出一個關(guān)系模型,用二維表形式表示實體與實體間的聯(lián)系。三四十年來,各行各業(yè)的數(shù)據(jù)庫和數(shù)據(jù)倉庫技術(shù),以及從數(shù)據(jù)庫發(fā)現(xiàn)知識的數(shù)據(jù)挖掘成為巨大的信息產(chǎn)業(yè)。關(guān)于數(shù)據(jù)庫之父,美國工程院院士獲獎了1980年的圖靈獎,他這篇論文是1970年寫的,講的是共享數(shù)據(jù)銀行的關(guān)系。關(guān)系數(shù)據(jù)庫有嚴(yán)格的頂層設(shè)計,為構(gòu)造良式關(guān)系,必須消除元組中不合適的依據(jù)依賴。我們每一個IT計算機(jī)本科生都學(xué)過這樣的技術(shù),對這樣的關(guān)系運(yùn)算,結(jié)果仍然是關(guān)系。
關(guān)系代數(shù)是關(guān)系數(shù)據(jù)庫的形式化理論和約束,先有頂層設(shè)計和數(shù)據(jù)結(jié)構(gòu),后填入清洗后的數(shù)據(jù)。數(shù)據(jù)圍繞結(jié)構(gòu)轉(zhuǎn),數(shù)據(jù)圍繞程序轉(zhuǎn)。用戶無需關(guān)心數(shù)據(jù)的獲取,存儲、分析以及提取過程。通過數(shù)據(jù)挖掘,可以從數(shù)據(jù)庫中發(fā)現(xiàn)分類知識、關(guān)聯(lián)知識,時序知識、異常知識等等。
隨著數(shù)據(jù)庫產(chǎn)業(yè)的膨大,人們對數(shù)據(jù)庫已經(jīng)不太滿足了,于是把Databases說成是大數(shù)據(jù),但是不管怎么大,遇到了兩個不可回避的挑戰(zhàn),第一是由于關(guān)系代數(shù)的形式化約束過于苛刻,無法表示現(xiàn)實數(shù)據(jù)怎么辦?第二個挑戰(zhàn),隨著數(shù)據(jù)量的增大,關(guān)系代數(shù)運(yùn)算性能急劇下降,如果是一個TB的關(guān)系數(shù)據(jù)庫,兩個表做一個交易,要幾十個小時,人們?nèi)淌懿涣?,這兩個挑戰(zhàn)就意味著心里方法的存在。就在這個時候,我們的存儲技術(shù)得到了迅猛發(fā)展,大家知道,存儲、內(nèi)存、外存、硬盤越來越普遍了,當(dāng)上海俞正聲書記提出1+TB的時候,這個錢誰來買單?現(xiàn)在我們可能都有一兩個TB,一個TB400塊錢就買到了,所以人類進(jìn)入了搜索時代。搜索因為存儲便宜了,存儲的速度大概每9個月翻一番,這在中國也好、全世界也好,誰能干就多干一點(diǎn)活,所以存儲帶動了技術(shù)的腳步,這種搜索時代經(jīng)過了20多年,于是我們進(jìn)入了一個半結(jié)構(gòu)化數(shù)據(jù)挖掘時代。這個時代代表人物就是萬維網(wǎng)之父Tim,他提出了超文本思想,開發(fā)了世界上第一個Web服務(wù)器,于是我們可以從一臺服務(wù)器上檢索另一臺服務(wù)器的內(nèi)容,服務(wù)器在軟件支持下可發(fā)布包括文本、表格、圖片、音視頻的碎片化超媒體信息。
因此,客戶端服務(wù)器結(jié)構(gòu)和云計算結(jié)構(gòu)蓬勃產(chǎn)生,在這時候我們已經(jīng)沒有了關(guān)于代數(shù)那樣嚴(yán)格的形式化約束,依靠的主要是規(guī)范、標(biāo)準(zhǔn),所有媒體均以實體形式存在,甚至是軟件,實體通過超鏈接產(chǎn)生聯(lián)系。
形式化理論比關(guān)系代數(shù)寬松了許多,創(chuàng)建了靈活多樣的實體,這時候數(shù)據(jù)開始圍繞實體轉(zhuǎn),實體圍繞鏈接轉(zhuǎn)。挖掘就是在云計算環(huán)境下搜索和個性化服務(wù),沒有死板的查詢方式,也不是唯一結(jié)果,允許帶有不確定性,重視搜索的統(tǒng)計性質(zhì)。各種各樣的關(guān)鍵字搜索引擎,語音、圖片、視頻搜索引擎在互聯(lián)網(wǎng)上出現(xiàn)了繁榮的內(nèi)容服務(wù)。隨著這些服務(wù)的普及,又遇到了新的挑戰(zhàn),千人一面的數(shù)字服務(wù)受到了質(zhì)疑,如果同一個人問同一問題它不可改變,當(dāng)一萬個人再問的時候,它可能有所改變,人們覺得這個還不好。
大數(shù)據(jù)時代技術(shù)的有效性要比科學(xué)的完整性更為重要
水不轉(zhuǎn),云在轉(zhuǎn)。這是第二條。隨著互聯(lián)網(wǎng)貸款6個月翻一番的速度,它比9個月翻一番、18個月翻一番要快,你的帶寬有能耐就多起點(diǎn)作用,于是人類進(jìn)入了交互時代,交互帶動著計算和存儲。
水不轉(zhuǎn),人在轉(zhuǎn)。移動互聯(lián)網(wǎng)時代的大數(shù)據(jù)挖掘主要是網(wǎng)絡(luò)化環(huán)境下的非結(jié)構(gòu)化數(shù)據(jù)挖掘,這些數(shù)據(jù)形態(tài)反映的是帶毛的、鮮活的、碎片化了的、異構(gòu)的、有情感的原生態(tài)數(shù)據(jù)。
這種非結(jié)構(gòu)化數(shù)據(jù)有什么特點(diǎn)呢?它常常是低價值、強(qiáng)噪聲、異構(gòu)、冗余冰冷的數(shù)據(jù),有很多數(shù)據(jù)放在存儲器里一輩子沒再用過。數(shù)據(jù)的形式化約束越來越寬松,越來越接近互聯(lián)網(wǎng)文化、窗口文化和社區(qū)文化,我們現(xiàn)在的青年人不要學(xué)什么東西,只要會玩手機(jī),越玩越熟悉,因為他已經(jīng)進(jìn)入這個文化之中。
關(guān)注的對象也發(fā)生很大改變,挖掘關(guān)注的首先是小眾,只有滿足小眾挖掘需求,才談得上滿足更多小眾組成的大眾的需求,因此一個重要思想,就是由下而上勝過由上而下的頂層設(shè)計,強(qiáng)調(diào)挖掘數(shù)據(jù)的真實性、及時性,要發(fā)現(xiàn)關(guān)聯(lián)、發(fā)現(xiàn)異常、發(fā)現(xiàn)趨勢,總之要發(fā)現(xiàn)價值,但是它未必注重因果、未必注重主次、未必注重時序,更未必發(fā)現(xiàn)普遍的知識。
移動互聯(lián)網(wǎng)時代的大數(shù)據(jù)挖掘過程當(dāng)中,數(shù)據(jù)的簡約具有自適應(yīng)性,不必具有固定特征或者層次。許多年來,我的課題組提出一個方法,叫認(rèn)知物理化方法,對128×128的象素組成的人臉,如果他們的數(shù)據(jù)場是等價的話,我們可以用28個特征點(diǎn)數(shù)據(jù)來等價這個流媒體數(shù)據(jù)。對另外一張人臉,它可以變成254個數(shù)據(jù)、59個數(shù)據(jù),這是非常不同于結(jié)構(gòu)化、半結(jié)構(gòu)化的。
當(dāng)前,深度學(xué)習(xí)也是一種數(shù)據(jù)自適應(yīng)簡約,百度人工智能建設(shè)院的吳教授他們就開展了這方面的研究,如果我們在百度上用深度學(xué)習(xí)搜索一個人臉象素搜索,這么多人臉誰是誰?是他嗎?數(shù)據(jù)量急劇增加,各種媒體形態(tài)可隨意碎片化,組織結(jié)構(gòu)和挖掘程序要圍著數(shù)據(jù)轉(zhuǎn),程序要碎片化,并可以隨時虛擬重組,挖掘常常是人機(jī)交互環(huán)境下不同社區(qū)的發(fā)現(xiàn)以及社區(qū)中形成的群體智能,在非結(jié)構(gòu)化數(shù)據(jù)挖掘中,會自然進(jìn)行數(shù)據(jù)清洗和逐步強(qiáng)形式化,自然形成半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù),以提高數(shù)據(jù)使用效率。
因此我們用網(wǎng)絡(luò)化的大數(shù)據(jù)挖掘方法,首先要是在這個復(fù)雜的人人都連網(wǎng)的情況之下找到一個特定問題的社區(qū),因此由社區(qū)發(fā)現(xiàn)成為大數(shù)據(jù)發(fā)展的首要問題,要研究社區(qū)成員,就必須要研究他們之間的相連關(guān)系,要研究他們的交互形態(tài),顯現(xiàn)的形態(tài)有評論、心情、收藏、購買、評分、頂踩、分享、轉(zhuǎn)載、加為好友、邀請等等,這些統(tǒng)計數(shù)據(jù)都成為我們挖掘的基礎(chǔ)。隱形形態(tài)有跳轉(zhuǎn)、瀏覽、翻頁、收聽、觀看、聊天、點(diǎn)擊、取消、會話中斷、黑名單等等。
交互的特點(diǎn)可以從頻繁性、增量性、主動性、廣泛性、多樣性、持久性去研究社區(qū)成員的連接強(qiáng)度。我們利用拓?fù)鋭莘椒ㄍ诰蛏鐓^(qū),我們還要發(fā)現(xiàn)在一個社區(qū)中,誰是一個領(lǐng)頭羊,誰是第二個領(lǐng)頭羊,成員的角色和重要性,成員之間的關(guān)系等等。
在現(xiàn)實生活中,人類的某個概念,或者世界的認(rèn)知經(jīng)過一段時間的反復(fù)交互、匯聚、修正、演化,群體形成趨于相對穩(wěn)定的共識。合作編輯下的維基條目,社會化標(biāo)注等都是這種過程中的生動再現(xiàn)。
群體智能是一個最近說得越來越多的詞,大家知道我們曾經(jīng)在計算機(jī)上做一個圖靈測試,讓計算機(jī)區(qū)分哪些碼是人產(chǎn)生的,哪些是機(jī)器產(chǎn)生的,這是卡內(nèi)基美隆大學(xué)提出來的,在網(wǎng)絡(luò)購物、登錄網(wǎng)站、申請網(wǎng)站時都會碰到適配碼被使用。這里我要提到第三個代表人物,他叫路易斯,他提出用這個適配碼應(yīng)用方式。
路易斯提出能不能把129年的報紙掃描,把圖片碎片化,變成檢驗碼,讓大家去識別,這樣一來,如果每天有兩億個檢驗碼,從而一下子就把129年的紐約時報實現(xiàn)數(shù)字化,這就是群體智能。有些事情計算機(jī)做得很好,人做不好,有些事情人做得很好,很簡單,計算機(jī)做不好,怎樣把這兩個優(yōu)勢加在一起呢?于是就有了群體智能。
所以云計算支撐大數(shù)據(jù)挖掘要發(fā)現(xiàn)價值的話,我們認(rèn)為云計算本來就是基于互聯(lián)網(wǎng)的大眾參與計算模式,其計算資源是動態(tài)的,可收縮的,被虛擬化的,而且以服務(wù)的方式提供。 產(chǎn)生擺脫了傳統(tǒng)的胖配置帶來的系統(tǒng)升級開柙,更加簡潔、更加靈活多樣、個性化,手機(jī)、游戲機(jī)、數(shù)碼相機(jī)、電視機(jī)差別細(xì)微,出現(xiàn)更多iCloud產(chǎn)品,界面人性化個性化,可成為大數(shù)據(jù)挖掘的終端。
挖掘員支撐各種各樣的大數(shù)據(jù)應(yīng)用,如果我們有數(shù)據(jù)收集中心、存儲中心、計算中心、服務(wù)中心,一定還有數(shù)據(jù)挖掘中心,這樣一來,我們就可以實現(xiàn)支撐大數(shù)據(jù)的及時應(yīng)用和價值的及時發(fā)現(xiàn)。
云計算產(chǎn)生的眾包思想已經(jīng)被大家接受,無論是電影行業(yè),還是搜狗的輸入方法,還是攝影照片共享,還是T恤衫的設(shè)計購買,說明眾包是怎么樣完成生產(chǎn)購買的。因此我們可以設(shè)想,在互聯(lián)網(wǎng)環(huán)境下,利用人的認(rèn)知和大眾間的交互,融合計算機(jī)存儲對大數(shù)據(jù)挖掘,形成群體智能,這樣一來,我們提出一個新的概念,叫眾挖,大家來挖。
用戶無需關(guān)心數(shù)據(jù)的形態(tài),無需關(guān)心數(shù)據(jù)的獲取位置、結(jié)構(gòu)模式、存儲方式以及分析過程,得到的就是及時的足夠滿意的挖掘結(jié)果,MaaS,誰是挖掘時代的谷歌呢?
大數(shù)據(jù)時代技術(shù)的有效性要比科學(xué)的完整性更為重要,如果說科學(xué)是解決形而上的問題,技術(shù)是解決行而下的問題的話,我們回顧一百年來的歷史,在上世紀(jì)的后半世紀(jì),我們有了1930年的圖靈模型,1970年我們有了物理的計算機(jī),80年代,我們開始了關(guān)系數(shù)據(jù)庫和產(chǎn)業(yè),后來我們有了專家系統(tǒng),在前50年大概都是科學(xué)引領(lǐng)技術(shù)發(fā)展,科學(xué)是技術(shù)先導(dǎo)?,F(xiàn)在情況發(fā)生了變化,云計算的形而上是什么呢?有人說是網(wǎng)絡(luò)科學(xué),大數(shù)據(jù)的形而上是什么呢?有人說是數(shù)據(jù)科學(xué)。
數(shù)據(jù)結(jié)構(gòu)的形式化約束由強(qiáng)到弱的演變非常明顯,70年代是強(qiáng)約束,后面的Web計算是半結(jié)構(gòu)化約束,到現(xiàn)在我們用的這些微機(jī)、手機(jī)、物聯(lián)網(wǎng)傳感器,越來越弱約束,弱到什么程度?弱到我們這個社區(qū)文化的常識就可以了,就好象說我們在城市里交通行人靠右走。
所以,我的基本結(jié)論是大數(shù)據(jù)標(biāo)志一個新時代的到來,這個時代的特征不只是追求豐富的物質(zhì)資源,也不只是無所不在的互聯(lián)網(wǎng)帶來方便的多樣化的信息服務(wù),同時還包含區(qū)別于物質(zhì)的數(shù)據(jù)資源的價值挖掘,以及價值轉(zhuǎn)換,虛擬世界的信息價值挖掘?qū)е赂泳_的控制物理世界的物質(zhì)和能量,以及由大數(shù)據(jù)挖掘帶來的精神和文化方面的嶄新現(xiàn)象。
于是,我們可以看一看從三四十年前的計算時代到二三十年前的搜索時代,到今天開啟的交互時代,我們依然會想起那英唱的那首歌,山不轉(zhuǎn)水轉(zhuǎn),水不轉(zhuǎn)云轉(zhuǎn),云不轉(zhuǎn)心轉(zhuǎn),再深的巷子也能走出那個天,再大的數(shù)據(jù)也能繞過那道彎!
根據(jù)中國工程院院士李德毅在第六屆云計算大會上的演講整理