“不要被大數(shù)據(jù)(Big Data)的‘Big’誤導(dǎo),大數(shù)據(jù)更強(qiáng)調(diào)的不是數(shù)據(jù)大,而是數(shù)據(jù)挖掘。”在日前舉行的第十屆國(guó)家信息化專家論壇上,中國(guó)工程院院士、中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)理事長(zhǎng)鄔賀銓指出,大數(shù)據(jù)需要更強(qiáng)調(diào)數(shù)據(jù)挖掘利用,而針對(duì)目前存在的技術(shù)應(yīng)用、人才、安全隱私等問(wèn)題,最關(guān)鍵的是要有國(guó)家大數(shù)據(jù)戰(zhàn)略,使其成為轉(zhuǎn)變經(jīng)濟(jì)增長(zhǎng)方式的有效抓手。
大數(shù)據(jù)的價(jià)值好似沙里淘金
NBA從上世紀(jì)80年代開(kāi)始將球員在賽場(chǎng)上的表現(xiàn)數(shù)據(jù)化,經(jīng)過(guò)30多年的積累已經(jīng)達(dá)到可辨別每一個(gè)球員在場(chǎng)上的弱點(diǎn),方便教練進(jìn)行針對(duì)性戰(zhàn)術(shù)安排。目前30家NBA球隊(duì)俱樂(lè)部已有半數(shù)聘請(qǐng)了數(shù)據(jù)分析師,他們的平均勝率達(dá)到59.3%,而沒(méi)有進(jìn)行數(shù)據(jù)分析的球隊(duì)僅有平均40.7%的勝率。這就是大數(shù)據(jù)的價(jià)值體現(xiàn)。
大數(shù)據(jù)的價(jià)值究竟從何而來(lái)?鄔賀銓認(rèn)為,數(shù)據(jù)大與價(jià)值大未必成正比。例如將一個(gè)人每分鐘的身體數(shù)據(jù)記錄下來(lái),對(duì)了解該人的身體狀況是有用的,但如果將他的每毫秒的身體數(shù)據(jù)都記錄下來(lái),數(shù)據(jù)量將較前者高6萬(wàn)倍,與按每分鐘記錄的數(shù)據(jù)相比,其價(jià)值并不能增加。大數(shù)據(jù)的價(jià)值在于樣本數(shù)的普遍性。統(tǒng)計(jì)一個(gè)人每分鐘的身體狀況數(shù)據(jù)與統(tǒng)計(jì)60個(gè)人每小時(shí)的身體狀況數(shù)據(jù)相比,可能后者在統(tǒng)計(jì)上更有意義。大數(shù)據(jù)往往是低價(jià)值密度。大數(shù)據(jù)中多數(shù)數(shù)據(jù)可能是重復(fù)的,忽略其中一些數(shù)據(jù)并不影響對(duì)其挖掘的效果。因此可以說(shuō)大數(shù)據(jù)的價(jià)值好似沙里淘金和海底撈針。
微軟的研究發(fā)現(xiàn),F(xiàn)acebook 90%的Hadoop任務(wù)數(shù)據(jù)集在100GB以下,Yahoo平均為12.5GB。北京公交一卡通乘客每天刷卡4000萬(wàn)次、地鐵1000萬(wàn)人次,每天累計(jì)的數(shù)據(jù)是MB級(jí),一年下來(lái)也不到TB級(jí),充其量只是中數(shù)據(jù),但對(duì)這一數(shù)據(jù)量的挖掘顯然就能得出北京人群使用公交的出行規(guī)律,對(duì)于優(yōu)化北京公交線路的設(shè)置有足夠的價(jià)值。因此鄔賀銓指出,事實(shí)上小數(shù)據(jù)也值得重視,對(duì)未到TB級(jí)規(guī)模的數(shù)據(jù)的挖掘也有價(jià)值。
網(wǎng)絡(luò)的數(shù)據(jù)并非都可信
Google的流感指數(shù)在2008年H7N1流感爆發(fā)時(shí)給出的預(yù)測(cè)比美國(guó)疾控中心早兩周發(fā)布,與其數(shù)據(jù)相似度0.9。美國(guó)紐約州2013年1月流感流行狀況十分嚴(yán)峻,政府發(fā)布了“公共健康緊急狀態(tài)”的通告,大眾媒體的廣泛報(bào)道,影響了谷歌用戶的搜索因?yàn)椋瑢?dǎo)致Google的流感指數(shù)估值出現(xiàn)了假陽(yáng)性,遠(yuǎn)高于疾控中心的統(tǒng)計(jì)數(shù)值。在谷歌流感指數(shù)的啟
發(fā)下,紐約羅切斯特大學(xué)利用Twitter的數(shù)據(jù)進(jìn)行了嘗試,可以提前8天預(yù)報(bào)流感對(duì)人體的侵襲狀況,而且準(zhǔn)確率高達(dá)90%,不過(guò)Twitter的使用者大部分是年輕人,而季節(jié)性流感的襲擾對(duì)象多為抵抗力較弱的老年人和兒童,因此基于Twitter的微博判斷流感有片面性。
鄔賀銓由此指出,網(wǎng)絡(luò)的數(shù)據(jù)并非都可信。網(wǎng)絡(luò)數(shù)據(jù)中真?zhèn)位祀s,特別是微博傳播不實(shí)消息散布很快,而微信圈子內(nèi)的消息不易監(jiān)控,對(duì)信息內(nèi)容管理提出挑戰(zhàn)。過(guò)去往往認(rèn)為“有圖有真相”,事實(shí)上圖片可以移花接木、張冠李戴、時(shí)空錯(cuò)亂,或者照片是對(duì)的,可是文字解釋是捏造的,這樣的事情已經(jīng)屢見(jiàn)不鮮。鑒于“謠言轉(zhuǎn)發(fā)500次就是傳謠”,一些網(wǎng)站規(guī)定所有帖子不論是否真實(shí)一律對(duì)轉(zhuǎn)發(fā)自動(dòng)封頂不超過(guò)499次,從輿情收集效果看,人為的截尾導(dǎo)致失去真實(shí)性。
他也指出,傳感器收集的數(shù)據(jù)并非都是可信的,特別是歷史上該傳感器的數(shù)據(jù)與同類的其他傳感器報(bào)出的數(shù)據(jù)差異很大時(shí),該數(shù)據(jù)就應(yīng)棄用。既然數(shù)據(jù)會(huì)有重復(fù)而且并非都是全部有用的,因此需要進(jìn)行數(shù)據(jù)過(guò)濾,這對(duì)簡(jiǎn)化存儲(chǔ)和提高可信性都是有意義的。還可以利用異構(gòu)多源數(shù)據(jù)來(lái)提高可信性,收集多源異構(gòu)的數(shù)據(jù)有利于對(duì)數(shù)據(jù)的理解。例如通過(guò)城市交通監(jiān)控系統(tǒng)可以實(shí)時(shí)掌握交通流量,如果加上政府?dāng)?shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù),就可能知道發(fā)生交通擁堵的原因。
要重視數(shù)據(jù)的挖掘利用
大數(shù)據(jù)的挖掘深化了信息技術(shù)的應(yīng)用,催生新的應(yīng)用和新業(yè)態(tài)出現(xiàn),大數(shù)據(jù)提升了管理和決策的智能化水平,鄔賀銓提出要重視數(shù)據(jù)的挖掘利用,不僅是大數(shù)據(jù),中小數(shù)據(jù)的挖掘也有意義。
大數(shù)據(jù)的量越大處理難度越大,但僅僅是需要更多的服務(wù)器或者說(shuō)需要更高速的服務(wù)器。鄔賀銓認(rèn)為,大數(shù)據(jù)的主要挑戰(zhàn)是實(shí)時(shí)性數(shù)據(jù)變化快。對(duì)于靜態(tài)的數(shù)據(jù),可以將數(shù)據(jù)帶進(jìn)程序來(lái)處理,但對(duì)于動(dòng)態(tài)的數(shù)據(jù),需要帶程序進(jìn)數(shù)據(jù)。大數(shù)據(jù)更大的挑戰(zhàn)是品種多,特別是非結(jié)構(gòu)化。對(duì)于結(jié)構(gòu)化數(shù)據(jù)可以使用關(guān)系數(shù)據(jù)庫(kù)技術(shù)來(lái)處理,對(duì)于非結(jié)構(gòu)化數(shù)據(jù)則要用NoSQL來(lái)處理。針對(duì)結(jié)構(gòu)化數(shù)據(jù)的虛擬存儲(chǔ)平臺(tái)采用了動(dòng)態(tài)分層技術(shù),根據(jù)數(shù)據(jù)被調(diào)用的頻率,自動(dòng)將常用的數(shù)據(jù)搬到最高層。針對(duì)非結(jié)構(gòu)化數(shù)據(jù)使用內(nèi)容歸檔平臺(tái),把結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集成到一個(gè)單一的動(dòng)態(tài)歸檔架構(gòu)中,設(shè)計(jì)一套軟件和元數(shù)據(jù)庫(kù)規(guī)則,通過(guò)給數(shù)據(jù)加標(biāo)簽的方式,建立不同維度,從而具有模糊查詢功能。