主持人:很榮幸的介紹第一位演講者,他是來自香港城市大學的祝建華教授。祝老師在美國和香港都有很長的工作經(jīng)歷,對于傳播社會學有很深的造詣。今天他給大家演講的題目是一個文科教授眼中的大數(shù)據(jù)。有請。
祝建華:謝謝周老師的介紹,用現(xiàn)在的網(wǎng)絡語言,我是一個文科男,或者是老年文科男。最近大家最有印象的是莫言在接受諾貝獎時說了一句話,文學不是科學,文學是做無用的東西。我想解釋一下文學不等于文科,文科的面更廣,在國外分為人文學科和社會科學。我們做的其實是社會科學,當然在座的大部分應該是理科男或者工科男。我很感謝會議把我的發(fā)言放在第一位。我覺得我有點對不起組織者,講一些文科男或者社會科學研究人員對大數(shù)據(jù)的看法,有些看法也許不是那么樂觀,有些保留,這些問題只是供大家參考。
今天上午幾個發(fā)言人都講到了現(xiàn)在的大數(shù)據(jù)是大熱,我做了一個小小的統(tǒng)計,(如圖)左邊在Google搜索詞中有關大數(shù)據(jù)的搜索很多。右邊是SCI/SSCI期刊里有關大數(shù)據(jù)的研究論文,相比之下,學術(shù)界對大數(shù)據(jù)的關心熱情比整個社會來的更積極。有關大數(shù)據(jù)的論文在最近幾個月有非常大的增加,反而一般用戶的關心當中大數(shù)據(jù)是平滑的在增加。
我進一步看了一下,研究大數(shù)據(jù)的學者當中都是來自什么學科的?首先第一位應該是信息科學,計算機科學,占27%。相等的是工程技術(shù),當然在很多學校工程技術(shù)跟計算機信息科學和技術(shù)是交叉在一起的。這兩個部分占了一半以上。然后是兩個比較大的應用領域,醫(yī)學生物化學是一類,下面是基礎研究,數(shù)學、物理。再往下兩個比較小的團隊,一個是商學院,一個是社會科學,加起來15%左右。我們做的研究差不多落在這15%里面。
雖然是文科男,但一直在做數(shù)據(jù),以前做的都是小數(shù)據(jù),我有幸被邀請參加了中國計算機學會最近成立的大數(shù)據(jù)專家委員會,也參與了大數(shù)據(jù)委員會對大數(shù)據(jù)研究的一些熱點問題和發(fā)展趨勢的評選工作。按照我的理解,最近發(fā)布的對大數(shù)據(jù)研究的八個熱點問題和十大趨勢,在全球范圍內(nèi)至今是最系統(tǒng)的一些看法和表述。當然美國和歐洲各個機構(gòu),各個商業(yè)學術(shù)團體都有一些非常精辟、非常精彩的看法,但從全面性講這可能是第一個文件。
大數(shù)據(jù)這個概念最近一直在受到關注的同時,也是有很多批評的意見。也許大家都見過這一條報道,他是Sybase的技術(shù)總裁,他講大數(shù)據(jù)是一個大謊話。Sybase在座的可能都很熟悉這個公司,是做數(shù)據(jù)庫的,長期為企業(yè)做BI應用工具的。他們一直在做大數(shù)據(jù)的工作,所以覺得現(xiàn)在所有講的東西早已有之,不是什么新的東西。所以,從這個角度講他覺得是有點泡沫,有點夸張。做時政研究的人并不完全認同,有些地方是有點夸大,但沒有夸大到是虛假的泡沫。
再回到4個V,什么是大數(shù)據(jù)。從4個V可以衍生到中文當中的多快好省這四個詞。哪些是理論上應該實現(xiàn)的,哪些實際上已經(jīng)在展現(xiàn),哪些現(xiàn)在還有差距的,是不是多快好省。多,大家講的個案很多,做數(shù)據(jù)分析有一對基本的概念,就是我們不僅關心了是個案,同時關心的是變量,變量就是特征值。如果是做一個網(wǎng)絡流量的數(shù)據(jù),我們關心的是網(wǎng)民各種各樣的特征值,做產(chǎn)品的話,產(chǎn)品也有更多的特征值。這兩者的交叉,用一個二維的表來說,個案就是每一行,變量就是每一列。在這樣的范圍內(nèi)討論,按照我的想法我們應該關心的是總體和樣本之間的選擇,到底我們應該是做樣本還是選總體。
我想引入另外一個概念,我們有一個叫總體數(shù)據(jù),大家都非常清楚,最容易解釋的是每十年中國和其他很多國家都要對全國的居民進行人口普查,最近一次的人口普查2010年,發(fā)現(xiàn)13.8億。另外一個概念我們經(jīng)常用的是樣本,抽查,每一年國家人口統(tǒng)計中心或者國家統(tǒng)計局還要做千分之二的樣本調(diào)查,知道在兩次大的十年之間的人口普查之間中國人口增長的變化。
實際上我們現(xiàn)在在講的大數(shù)據(jù),理論上講應該指的就是總體數(shù)據(jù),但實際上在很多情況下,由于技術(shù)的原因,由于人為的原因,由于其他原因,按照我的看法,除了少數(shù)數(shù)據(jù)的原始擁有者。例如淘寶或者是新浪微博,或者是今天上午講到的國家電網(wǎng)或者是教育網(wǎng),他們也許是真正掌握了總體數(shù)據(jù)的。對于絕大部分第三方來講,我們并沒有拿到總體,那多的都是局部。這個局部也許是很高的百分比,70%、80%,哪怕是缺了這10%、20%,也許局部數(shù)據(jù)跟總體就有很大的差別。
我們社會科學做時政研究的人來看,很多情況下樣本數(shù)據(jù),雖然它的規(guī)模要小很多,但實際上比局部數(shù)據(jù)要更有價值,更可靠。我這里做了一個很小的模擬,隨機產(chǎn)生了一萬個個案。從一萬個點中我抽了500個點,隨機抽的。500個點看上去很稀疏,但是它對總體的代表是很好的。我抽了500個個案的樣本,計算百分值也是在原點。再抽80%的樣本數(shù),人為的設定一些界限,使得其右方向偏,它的數(shù)就有所偏離。
數(shù)據(jù)是用來描述客觀事件的,一般把事件分成兩類,一類是常態(tài)的,一類是異常的。最極端的是前幾年有人講的黑天鵝事件,理論上存在,實際上很少發(fā)生,如果發(fā)生的話,它對社會帶來的影響是極其災難性的后果。如果我們我們有總體,那沒有問題,任何事件都在數(shù)據(jù)當中可以反映。如果我們有幸獲得總體數(shù)據(jù),以淘寶為例,淘寶的總體數(shù)據(jù)僅僅是淘寶網(wǎng)上的,它并不是中國電子商務所有的數(shù)據(jù),還有京東,還有其他。誰要說我研究的對象是中國電子商務淘寶的數(shù)據(jù),再海量也是一個局部數(shù)據(jù),而不是總體數(shù)據(jù)。
不管怎么說如果你正好有這么一個總體數(shù)據(jù),你就不用擔心你想描述的事件是常態(tài)的還是異態(tài)的,不會漏掉東西,結(jié)果一定是準確和精確的。如果我們有樣本,只要你的抽樣方法是符合隨機概率的原則,你的基本結(jié)論,你的樣本對總體是有無偏的估計的,就是準確的,但不一定精確。只要樣本足夠大,跟總體差距就在1到3個百分點之間。如果我們要研究的是一些異常事件,比如黑天鵝事件,樣本數(shù)會經(jīng)常遺漏這些異常數(shù)據(jù)。假定是局部數(shù)據(jù)的話,哪怕你是總體的80%,甚至90%,你研究的就是常規(guī)事件,你的代表性也許很差。局部數(shù)據(jù)不管你的規(guī)模多大,都是最壞的數(shù)據(jù)。為什么?因為你漏掉了被你選擇的都是一種自我選擇機制,這種機制是無所不在的,時刻影響到我們數(shù)據(jù)的質(zhì)量。很多情況下我們研究者并不知道為什么我們?nèi)鄙俚囊恍〇|西,任何數(shù)據(jù)的缺少背后都有社會、經(jīng)濟、法律、自然等等原因。我們的觀點是做大數(shù)據(jù),要么就做總體,如果你有能力,要么就是做樣本,掌握你的方法,你能估算你的誤差在哪兒。如果依靠局部數(shù)據(jù),被局部數(shù)據(jù)的海量規(guī)模所迷惑,其實是害死人的。
歷史上有過很多案例,在我們教學過程中每次必講的是美國1936年的總統(tǒng)選舉。2012年的選舉剛剛結(jié)束,其中有一個非常讓人注意的是有關選舉的預測問題。這種預測從1932年開始到現(xiàn)在有80年的歷史了。那個案例一直成為一個經(jīng)典,當時有兩家公司在做預測。第一家是雜志,隨著雜志寄加了問卷,回來250萬份問卷,那時美國全國的選民大概是1億左右,250萬已經(jīng)是相當大的數(shù)量。他們經(jīng)過回收,發(fā)現(xiàn)藍頓比羅斯福高了14%,以絕對優(yōu)勢當選。另外有一家現(xiàn)在是全球知名的品牌,那時剛剛開始搞的一個小小的調(diào)查研究,民意測驗中心,調(diào)查了5000人,他選擇的是隨機抽樣的方法,預測是羅斯福當選,56%。最后羅斯福以壓倒性的票數(shù)勝過藍頓。發(fā)送雜志訂購雜志的人相對知識多一點,更有錢,所以對共和黨更支持。而隨機樣本雖然小,5000人,大概有一點多的百分點,跟總體有一定的差別,但大面是準確的。只是大,但不注意數(shù)據(jù)的代表性,后果更嚴重。
我們現(xiàn)在講大數(shù)據(jù),這是以前社會科學家們做的小樣本,我們用的數(shù)據(jù)叫做少個案、多變量。我們數(shù)據(jù)的結(jié)構(gòu)有N個個案,理想當中的大數(shù)據(jù),不僅要變量多,而且個案多,不光是N個,也許是無窮大的。也許我的接觸是有限的,我的觀察是現(xiàn)實生活中我們現(xiàn)在用到的大數(shù)據(jù)僅僅是個案多,變量并不多。早晨有人的演講當中用了7萬個變量預測借貸款,這當然是一個革命。以前我們所謂的多變量只有幾百個,最多也就是上千個,7萬個變量是從什么地方來的,真的是驚人的。多個案,少變量的數(shù)據(jù)結(jié)構(gòu)是我們面臨的大數(shù)據(jù)的基本環(huán)境。造成的原因之一就是每個人占據(jù)了其中的一小部分,也就是所謂的數(shù)據(jù)孤島。真正要使我們有多個案,多變量大數(shù)據(jù)的方法,就像今天早上啟動的大數(shù)據(jù)聯(lián)盟,通過分享、通過整合才能做。
快,其實是效果跟效益之間的選擇。我還是用社會科學文科男們做的研究作為慢的例子和現(xiàn)在的大數(shù)據(jù)的一些基本方法來做比較。我們做的都是手工標注的,現(xiàn)在都是自動分類的。從規(guī)模上是沒辦法比的,我們一般一個樣本只有幾千個,現(xiàn)在幾百萬是小的,到萬億才是常態(tài)的。從準確率來講,人工永遠超過機器的。有人統(tǒng)計過,我也是自己觀察一下,機器學習的準確率平均差不多在80%左右,當然也有些做自然語言處理的,做人工智能的會跟我辯論,說某一個特定的項目他們能做到90%。但是如果把所有的研究都拿來平均一下,80%是比較樂觀的標記。人工情況下基本能做到90%、95%,一般學術(shù)期刊上準確率低于95%是不會接受的。問題是你怎么知道你的準確率?我們的一般方法是對同樣的內(nèi)容要有兩個或者更多的人分別獨立的進行標注,而且是背靠背的互相不知道。通過各自的理由,最后計算相互的相似度。
大部分情況下如果是全自動的連準確率都是無法知道的,現(xiàn)在大量的用網(wǎng)上抓做預測的,到底預測以后準不準,永遠是一個未知數(shù)。從誤差來講,人工判斷有誤差,但這些誤差都是個人誤差,如果有幾個人同時做的話,其實誤差可以非常小的。機器學習的誤差是系統(tǒng)性的,如果你知道偏在哪兒,可以很容易的就把它改過來,關鍵是誤差差在什么地方不知道。這就是我剛才講的,如果是我們已經(jīng)拿到了局部的數(shù)據(jù),你不知道局部的系統(tǒng)誤差是往左偏,還是往右偏,偏高了還是偏低了并不知道。所以,按照我們的看法人工小規(guī)模的小樣本的數(shù)據(jù),研究結(jié)果是準確的,但是不夠精確,所謂精確就是不夠穩(wěn)定。繼續(xù)學習的方法倒過來,因為你有海量的數(shù)據(jù),幾百萬,幾千萬,非常精準。其實精準這個詞從英文里面只講準不講精,精而不準是大數(shù)據(jù)現(xiàn)有的一個問題。很自然的想到我們需要把人工標注和自動分類結(jié)合起來,有監(jiān)督的機器學習。機器學習包括訓練集的質(zhì)量,訓練集規(guī)模和你的算法,這三者的重要性就是按照這個排位的。
省,到底是省的人,還是省的能源。大數(shù)據(jù)肯定省的是人,但省人的同時在耗能。也是一個環(huán)保的問題我不想多講,實際上是驚人的。如果現(xiàn)在才開始規(guī)劃,不注意的話,也許幾年以后大數(shù)據(jù)就成為我們一個新的污染工業(yè),污染的重工業(yè)。確實存在的,我今天早上剛剛聽說準備在什么地方建立大數(shù)據(jù)中心,來幾百萬臺服務器。你可以想象得到所耗用的能源和它產(chǎn)生的輻射,我不是學物理的,我相信輻射也是非常可怕的。實際上現(xiàn)在數(shù)據(jù)的增加,每年遞增的速度遠遠超過我們現(xiàn)在除塵能力的速度。在這種情況下,除非我們的除塵材料有突破,不然我們必須要想一個問題,到底要把總體數(shù)據(jù)保存下來嗎?聯(lián)通只能保存4個月,還是抽樣,把大數(shù)據(jù)變小。
這個問題是所有問題的核心,沒有答案的。我只想說幾個問題。第一,大數(shù)據(jù)是好,但是大數(shù)據(jù)在哪里。如果我們拿不到大數(shù)據(jù),就是一個櫥窗里面的蛋糕,只能在外面看。按照我的看法,我們可以把大數(shù)據(jù)分成幾種,小規(guī)模的、中型規(guī)模、巨型規(guī)模的。小規(guī)模的非常多,免費就何以得到。中規(guī)模大部分情況下也是免費的或者是一些低成本的。真正的大數(shù)據(jù)其實是得不到的。做應用也好,做工具服務的也好,都必須考慮這個問題。這就講到數(shù)據(jù)的分析工具,實際上對大數(shù)據(jù)的分析工具并不發(fā)達,我們現(xiàn)在所用到的絕大部分工具都是用來解決小數(shù)據(jù)問題的,用來解決常態(tài)數(shù)據(jù)對異態(tài)數(shù)據(jù)的統(tǒng)計工具。現(xiàn)在基本上沒有,最近有人發(fā)表一篇文章講用于大數(shù)據(jù)相關分析的一些重要思想,這個工作就相當于高斯一百多年前提出的小數(shù)據(jù)相關關系的年代。也就是說,我們處理大數(shù)據(jù)的能力還是處在起步的階段,現(xiàn)在只能分析二元,而不是多元。7萬個個案的模型我沒看過,也許我們這種學院派的人士比較保守,我不相信他們能做到,因為現(xiàn)在用的都是傳統(tǒng)的經(jīng)典的工具。
對大數(shù)據(jù)怎么看?我的看法不全部是樂觀的,也不全部是悲觀的。數(shù)據(jù)的存在肯定是一個新世紀、新紀元,從數(shù)據(jù)的潛在價值來講也是存在的,但是數(shù)據(jù)的應用,數(shù)據(jù)的分享,其實是有很多問題的。數(shù)據(jù)的除塵跟數(shù)據(jù)的分析研究,其實是剛剛開始,應用現(xiàn)在遠遠走在了研究的前面。很樂意跟大家一起討論交流,謝謝大家!