路易斯提出能不能把129年的報紙掃描,把圖片碎片化,變成檢驗碼,讓大家去識別,這樣一來,如果每天有兩億個檢驗碼,從而一下子就把129年的紐約時報實現(xiàn)數(shù)字化,這就是群體智能。有些事情計算機做得很好,人做不好,有些事情人做得很好,很簡單,計算機做不好,怎樣把這兩個優(yōu)勢加在一起呢?于是就有了群體智能。
所以云計算支撐大數(shù)據(jù)挖掘要發(fā)現(xiàn)價值的話,我們認(rèn)為云計算本來就是基于互聯(lián)網(wǎng)的大眾參與計算模式,其計算資源是動態(tài)的,可收縮的,被虛擬化的,而且以服務(wù)的方式提供。 產(chǎn)生擺脫了傳統(tǒng)的胖配置帶來的系統(tǒng)升級開柙,更加簡潔、更加靈活多樣、個性化,手機、游戲機、數(shù)碼相機、電視機差別細(xì)微,出現(xiàn)更多iCloud產(chǎn)品,界面人性化個性化,可成為大數(shù)據(jù)挖掘的終端。
挖掘員支撐各種各樣的大數(shù)據(jù)應(yīng)用,如果我們有數(shù)據(jù)收集中心、存儲中心、計算中心、服務(wù)中心,一定還有數(shù)據(jù)挖掘中心,這樣一來,我們就可以實現(xiàn)支撐大數(shù)據(jù)的及時應(yīng)用和價值的及時發(fā)現(xiàn)。
云計算產(chǎn)生的眾包思想已經(jīng)被大家接受,無論是電影行業(yè),還是搜狗的輸入方法,還是攝影照片共享,還是T恤衫的設(shè)計購買,說明眾包是怎么樣完成生產(chǎn)購買的。因此我們可以設(shè)想,在互聯(lián)網(wǎng)環(huán)境下,利用人的認(rèn)知和大眾間的交互,融合計算機存儲對大數(shù)據(jù)挖掘,形成群體智能,這樣一來,我們提出一個新的概念,叫眾挖,大家來挖。
用戶無需關(guān)心數(shù)據(jù)的形態(tài),無需關(guān)心數(shù)據(jù)的獲取位置、結(jié)構(gòu)模式、存儲方式以及分析過程,得到的就是及時的足夠滿意的挖掘結(jié)果,MaaS,誰是挖掘時代的谷歌呢?
大數(shù)據(jù)時代技術(shù)的有效性要比科學(xué)的完整性更為重要,如果說科學(xué)是解決形而上的問題,技術(shù)是解決行而下的問題的話,我們回顧一百年來的歷史,在上世紀(jì)的后半世紀(jì),我們有了1930年的圖靈模型,1970年我們有了物理的計算機,80年代,我們開始了關(guān)系數(shù)據(jù)庫和產(chǎn)業(yè),后來我們有了專家系統(tǒng),在前50年大概都是科學(xué)引領(lǐng)技術(shù)發(fā)展,科學(xué)是技術(shù)先導(dǎo)?,F(xiàn)在情況發(fā)生了變化,云計算的形而上是什么呢?有人說是網(wǎng)絡(luò)科學(xué),大數(shù)據(jù)的形而上是什么呢?有人說是數(shù)據(jù)科學(xué)。
數(shù)據(jù)結(jié)構(gòu)的形式化約束由強到弱的演變非常明顯,70年代是強約束,后面的Web計算是半結(jié)構(gòu)化約束,到現(xiàn)在我們用的這些微機、手機、物聯(lián)網(wǎng)傳感器,越來越弱約束,弱到什么程度?弱到我們這個社區(qū)文化的常識就可以了,就好象說我們在城市里交通行人靠右走。
所以,我的基本結(jié)論是大數(shù)據(jù)標(biāo)志一個新時代的到來,這個時代的特征不只是追求豐富的物質(zhì)資源,也不只是無所不在的互聯(lián)網(wǎng)帶來方便的多樣化的信息服務(wù),同時還包含區(qū)別于物質(zhì)的數(shù)據(jù)資源的價值挖掘,以及價值轉(zhuǎn)換,虛擬世界的信息價值挖掘?qū)е赂泳_的控制物理世界的物質(zhì)和能量,以及由大數(shù)據(jù)挖掘帶來的精神和文化方面的嶄新現(xiàn)象。
于是,我們可以看一看從三四十年前的計算時代到二三十年前的搜索時代,到今天開啟的交互時代,我們依然會想起那英唱的那首歌,山不轉(zhuǎn)水轉(zhuǎn),水不轉(zhuǎn)云轉(zhuǎn),云不轉(zhuǎn)心轉(zhuǎn),再深的巷子也能走出那個天,再大的數(shù)據(jù)也能繞過那道彎,謝謝大家!