不能僅用有偏的數(shù)據(jù)。數(shù)據(jù)一定要全面地反映未來, 對各個(gè)方面都有所涉及。如果數(shù)據(jù)是有偏的,則很難對未來進(jìn)行有效地判斷。
不能保證包含有效的信息。當(dāng)數(shù)據(jù)中的關(guān)鍵特征缺失時(shí),大數(shù)據(jù)就無法矯正數(shù)據(jù)與現(xiàn)實(shí)之間的偏差,尤其是對于那種與人的心理和行為相關(guān)的數(shù)據(jù),非常容易產(chǎn)生偏差。問題的關(guān)鍵是:研究之前,專家并不知道哪些特征是關(guān)鍵特征。比如股價(jià)受到“黑天鵝”事件影響,使得無法用大數(shù)據(jù)預(yù)測關(guān)鍵事件發(fā)生的概率。這就像一個(gè)輸入管道:垃圾輸入導(dǎo)致垃圾輸出。這也是為什么某些電影的實(shí)際票房和從網(wǎng)上評(píng)價(jià)數(shù)據(jù)得來的結(jié)果是背道而馳的。
不能保證減小噪音。這是因?yàn)樵诖髷?shù)據(jù)里面,噪音數(shù)據(jù)的出現(xiàn)往往會(huì)以有意義的模式的形式出現(xiàn),從而騙過知識(shí)挖掘系統(tǒng)。這樣,大數(shù)據(jù)可能帶來更大的噪音。
Q10:后大數(shù)據(jù)時(shí)代的技術(shù)趨勢是什么?
大數(shù)據(jù)所帶來的變革,只不過是計(jì)算機(jī)技術(shù)為整個(gè)人類帶來變革當(dāng)中的一步。計(jì)算機(jī)從上世紀(jì)五十年代起,就在人類歷史上開始了潛移默化的革命。這個(gè)革命的根本標(biāo)志就是人類社會(huì)和行為的數(shù)字化,以及兩個(gè)世界(物理世界和虛擬世界)的無縫融合。在這場革命中,人類傳統(tǒng)的行業(yè)一個(gè)接一個(gè)被數(shù)字化行業(yè)取代:從金融系統(tǒng)到電子商務(wù),從機(jī)器人制造到無人駕駛汽車……
所以,大數(shù)據(jù)變革與人類歷史上其他重要變革是一樣的,需要經(jīng)過資源( 即大數(shù)據(jù)) 的原始積累,商業(yè)和社會(huì)服務(wù)的差異化,直到人類對虛擬世界的行業(yè)、社會(huì)進(jìn)行再規(guī)范,以解決數(shù)據(jù)資源分配。這個(gè)歷史過程在上一個(gè)工業(yè)革命(十八世紀(jì)機(jī)器革命)時(shí)經(jīng)過了一百多年,但在這一次的革命中,將以更快的形式發(fā)生。
以此推論,由大數(shù)據(jù)引發(fā)的下一代技術(shù)很可能是更大規(guī)模的、面向數(shù)字化行業(yè)的轉(zhuǎn)變, 這使得現(xiàn)在物理世界里的眾多傳統(tǒng)行業(yè)將全面或部分地轉(zhuǎn)向數(shù)字世界,進(jìn)行融合。這個(gè)轉(zhuǎn)變也讓許多領(lǐng)域以另一種形式出現(xiàn), 使得許多行業(yè)在整體“食物鏈條”上下游有所改變。到了那一天,醫(yī)生、科學(xué)家和教師等“高大上”行業(yè)是否會(huì)成為大數(shù)據(jù)輸送原料的數(shù)據(jù)采集和解釋分析結(jié)果的“工人”? 或是成為在大數(shù)據(jù)驅(qū)動(dòng)下的人工智能機(jī)器人的伙伴?這些都引人深思。
文/ 楊強(qiáng) 香港科技大學(xué)計(jì)算機(jī)科學(xué)及工程學(xué)系教授 華為諾亞方舟實(shí)驗(yàn)室主任(2012-2014)