因此,客戶端服務(wù)器結(jié)構(gòu)和云計算結(jié)構(gòu)蓬勃產(chǎn)生,在這時候我們已經(jīng)沒有了關(guān)于代數(shù)那樣嚴格的形式化約束,依靠的主要是規(guī)范、標準,所有媒體均以實體形式存在,甚至是軟件,實體通過超鏈接產(chǎn)生聯(lián)系。
形式化理論比關(guān)系代數(shù)寬松了許多,創(chuàng)建了靈活多樣的實體,這時候數(shù)據(jù)開始圍繞實體轉(zhuǎn),實體圍繞鏈接轉(zhuǎn)。挖掘就是在云計算環(huán)境下搜索和個性化服務(wù),沒有死板的查詢方式,也不是唯一結(jié)果,允許帶有不確定性,重視搜索的統(tǒng)計性質(zhì)。各種各樣的關(guān)鍵字搜索引擎,語音、圖片、視頻搜索引擎在互聯(lián)網(wǎng)上出現(xiàn)了繁榮的內(nèi)容服務(wù)。隨著這些服務(wù)的普及,又遇到了新的挑戰(zhàn),千人一面的數(shù)字服務(wù)受到了質(zhì)疑,如果同一個人問同一問題它不可改變,當(dāng)一萬個人再問的時候,它可能有所改變,人們覺得這個還不好。
大數(shù)據(jù)時代技術(shù)的有效性要比科學(xué)的完整性更為重要
水不轉(zhuǎn),云在轉(zhuǎn)。這是我報告的第二條。隨著互聯(lián)網(wǎng)貸款6個月翻一番的速度,它比9個月翻一番、18個月翻一番要快,你的帶寬有能耐就多起點作用,于是人類進入了交互時代,交互帶動著計算和存儲。
水不轉(zhuǎn),人在轉(zhuǎn)。移動互聯(lián)網(wǎng)時代的大數(shù)據(jù)挖掘主要是網(wǎng)絡(luò)化環(huán)境下的非結(jié)構(gòu)化數(shù)據(jù)挖掘,這些數(shù)據(jù)形態(tài)反映的是帶毛的、鮮活的、碎片化了的、異構(gòu)的、有情感的原生態(tài)數(shù)據(jù)。
這種非結(jié)構(gòu)化數(shù)據(jù)有什么特點呢?它常常是低價值、強噪聲、異構(gòu)、冗余冰冷的數(shù)據(jù),有很多數(shù)據(jù)放在存儲器里一輩子沒再用過。數(shù)據(jù)的形式化約束越來越寬松,越來越接近互聯(lián)網(wǎng)文化、窗口文化和社區(qū)文化,我們現(xiàn)在的青年人不要學(xué)什么東西,只要會玩手機,越玩越熟悉,因為他已經(jīng)進入這個文化之中。
關(guān)注的對象也發(fā)生很大改變,挖掘關(guān)注的首先是小眾,只有滿足小眾挖掘需求,才談得上滿足更多小眾組成的大眾的需求,因此一個重要思想,就是由下而上勝過由上而下的頂層設(shè)計,強調(diào)挖掘數(shù)據(jù)的真實性、及時性,要發(fā)現(xiàn)關(guān)聯(lián)、發(fā)現(xiàn)異常、發(fā)現(xiàn)趨勢,總之要發(fā)現(xiàn)價值,但是它未必注重因果、未必注重主次、未必注重時序,更未必發(fā)現(xiàn)普遍的知識。
移動互聯(lián)網(wǎng)時代的大數(shù)據(jù)挖掘過程當(dāng)中,數(shù)據(jù)的簡約具有自適應(yīng)性,不必具有固定特征或者層次。許多年來,我的課題組提出一個方法,叫認知物理化方法,對128×128的象素組成的人臉,如果他們的數(shù)據(jù)場是等價的話,我們可以用28個特征點數(shù)據(jù)來等價這個流媒體數(shù)據(jù)。對另外一張人臉,它可以變成254個數(shù)據(jù)、59個數(shù)據(jù),這是非常不同于結(jié)構(gòu)化、半結(jié)構(gòu)化的。
當(dāng)前,深度學(xué)習(xí)也是一種數(shù)據(jù)自適應(yīng)簡約,百度人工智能建設(shè)院的吳教授他們就開展了這方面的研究,如果我們在百度上用深度學(xué)習(xí)搜索一個人臉象素搜索,這么多人臉誰是誰?是他嗎?數(shù)據(jù)量急劇增加,各種媒體形態(tài)可隨意碎片化,組織結(jié)構(gòu)和挖掘程序要圍著數(shù)據(jù)轉(zhuǎn),程序要碎片化,并可以隨時虛擬重組,挖掘常常是人機交互環(huán)境下不同社區(qū)的發(fā)現(xiàn)以及社區(qū)中形成的群體智能,在非結(jié)構(gòu)化數(shù)據(jù)挖掘中,會自然進行數(shù)據(jù)清洗和逐步強形式化,自然形成半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù),以提高數(shù)據(jù)使用效率。
因此我們用網(wǎng)絡(luò)化的大數(shù)據(jù)挖掘方法,首先要是在這個復(fù)雜的人人都連網(wǎng)的情況之下找到一個特定問題的社區(qū),因此由社區(qū)發(fā)現(xiàn)成為大數(shù)據(jù)發(fā)展的首要問題,要研究社區(qū)成員,就必須要研究他們之間的相連關(guān)系,要研究他們的交互形態(tài),顯現(xiàn)的形態(tài)有評論、心情、收藏、購買、評分、頂踩、分享、轉(zhuǎn)載、加為好友、邀請等等,這些統(tǒng)計數(shù)據(jù)都成為我們挖掘的基礎(chǔ)。隱形形態(tài)有跳轉(zhuǎn)、瀏覽、翻頁、收聽、觀看、聊天、點擊、取消、會話中斷、黑名單等等。
交互的特點可以從頻繁性、增量性、主動性、廣泛性、多樣性、持久性去研究社區(qū)成員的連接強度。我們利用拓撲勢方法挖掘社區(qū),我們還要發(fā)現(xiàn)在一個社區(qū)中,誰是一個領(lǐng)頭羊,誰是第二個領(lǐng)頭羊,成員的角色和重要性,成員之間的關(guān)系等等。
在現(xiàn)實生活中,人類的某個概念,或者世界的認知經(jīng)過一段時間的反復(fù)交互、匯聚、修正、演化,群體形成趨于相對穩(wěn)定的共識。合作編輯下的維基條目,社會化標注等都是這種過程中的生動再現(xiàn)。
群體智能是一個最近說得越來越多的詞,大家知道我們曾經(jīng)在計算機上做一個圖靈測試,讓計算機區(qū)分哪些碼是人產(chǎn)生的,哪些是機器產(chǎn)生的,這是卡內(nèi)基美隆大學(xué)提出來的,在網(wǎng)絡(luò)購物、登錄網(wǎng)站、申請網(wǎng)站時都會碰到適配碼被使用。這里我要提到第三個代表人物,他叫路易斯,他提出用這個適配碼應(yīng)用方式。