電子計算機的創(chuàng)始人之一馮·諾依曼曾指出:“在每一門科學(xué)中,當(dāng)通過研究那些與終極目標相比頗為樸實的問題,發(fā)展出一些可以不斷加以推廣的方法時,這門學(xué)科就得到了巨大的進展。”我們不必天天期盼奇跡出現(xiàn),多做一些“頗為樸實”的事情,實際的進步就在扎扎實實的努力之中。媒體喜歡宣傳一些令人驚奇的大數(shù)據(jù)成功案例,對這些案例我們應(yīng)保持清醒的頭腦。據(jù)Intel中國研究院首席工程師吳甘沙在一次報告中透露,所謂“啤酒加尿布”的數(shù)據(jù)挖掘經(jīng)典案例,其實是Teradata公司一位經(jīng)理編出來的“故事”,歷史上并沒有發(fā)生過[4]。即使有這個案例,也不說明大數(shù)據(jù)分析本身有什么神奇,大數(shù)據(jù)中看起來毫不相關(guān)的兩件事同時或相繼出現(xiàn)的現(xiàn)象比比皆是,關(guān)鍵是人的分析推理找出為什么兩件事物同時或相繼出現(xiàn),找對了理由才是新知識或新發(fā)現(xiàn)的規(guī)律,相關(guān)性本身并沒有多大價值。
有一個家喻戶曉的寓言可以從一個角度說明大數(shù)據(jù)的價值:一位老農(nóng)民臨終前告訴他的3個兒子,他在他家的地中埋藏了一罐金子,但沒有講埋在哪里。
他的兒子們把他家所有的地都深挖了一遍,沒有挖到金子,但由于深挖了土地,從此莊稼收成特別好。數(shù)據(jù)收集、分析的能力提高了,即使沒有發(fā)現(xiàn)什么普適的規(guī)律或令人完全想不到的新知識,大數(shù)據(jù)的價值也已逐步體現(xiàn)。
3.2 大數(shù)據(jù)的力量來自“大成智慧”
每一種數(shù)據(jù)來源都有一定的局限性和片面性,只有融合、集成各方面的原始數(shù)據(jù),才能反映事物的全貌。事物的本質(zhì)和規(guī)律隱藏在各種原始數(shù)據(jù)的相互關(guān)聯(lián)之中。不同的數(shù)據(jù)可能描述同一實體,但角度不同。對同一個問題,不同的數(shù)據(jù)能提供互補信息,可對問題有更深入的理解。因此在大數(shù)據(jù)分析中,匯集盡量多種來源的數(shù)據(jù)是關(guān)鍵。
數(shù)據(jù)科學(xué)是數(shù)學(xué)(統(tǒng)計、代數(shù)、拓撲等)、計算機科學(xué)、基礎(chǔ)科學(xué)和各種應(yīng)用科學(xué)融合的科學(xué),類似錢學(xué)森先生提出的“大成智慧學(xué)”[5]。錢老指出:“必集大成,才能得智慧”。大數(shù)據(jù)能不能出智慧,關(guān)鍵在于對多種數(shù)據(jù)源的集成和融合。IEEE計算機學(xué)會最近發(fā)布了2014年的計算機技術(shù)發(fā)展趨勢預(yù)測報告,重點強調(diào)“無縫智慧(seamless intelligence)”。發(fā)展大數(shù)據(jù)的目標就是要獲得協(xié)同融合的“無縫智慧”。單靠一種數(shù)據(jù)源,即使數(shù)據(jù)規(guī)模很大,也可能出現(xiàn)“瞎子摸象”一樣的片面性。數(shù)據(jù)的開放共享不是錦上添花的工作,而是決定大數(shù)據(jù)成敗的必要前提。
大數(shù)據(jù)研究和應(yīng)用要改變過去各部門和各學(xué)科相互分割、獨立發(fā)展的傳統(tǒng)思路,重點不是支持單項技術(shù)和單個方法的發(fā)展,而是強調(diào)不同部門、不同學(xué)科的協(xié)作。數(shù)據(jù)科學(xué)不是垂直的“煙囪”,而是像環(huán)境、能源科學(xué)一樣的橫向集成科學(xué)。
3.3 大數(shù)據(jù)遠景燦爛,但近期不能期望太高
交流電問世時主要用作照明,根本想象不到今天無處不在的應(yīng)用。大數(shù)據(jù)技術(shù)也一樣,將來一定會產(chǎn)生許多現(xiàn)在想不到的應(yīng)用。我們不必擔(dān)心大數(shù)據(jù)的未來,但近期要非常務(wù)實地工作。人們往往對近期的發(fā)展估計過高,而對長期的發(fā)展估計不足。Gartner公司預(yù)測,大數(shù)據(jù)技術(shù)要在5~10年后才會成為較普遍采用的主流技術(shù),對發(fā)展大數(shù)據(jù)技術(shù)要有足夠的耐心。
大數(shù)據(jù)與其他信息技術(shù)一樣,在一段時間內(nèi)遵循指數(shù)發(fā)展規(guī)律。指數(shù)發(fā)展的特點是,從一段歷史時期衡量(至少30年),前期發(fā)展比較慢,經(jīng)過相當(dāng)長時間(可能需要20年以上)的積累,會出現(xiàn)一個拐點,過了拐點以后,就會出現(xiàn)爆炸式的增長。但任何技術(shù)都不會永遠保持“指數(shù)性”增長,一般而言,高技術(shù)發(fā)展遵循Gartner公司描述的技術(shù)成熟度曲線(hype cycle),最后可能進入良性發(fā)展的穩(wěn)定狀態(tài)或者走向消亡。
需要采用大數(shù)據(jù)技術(shù)來解決的問題往往都是十分復(fù)雜的問題,比如社會計算、生命科學(xué)、腦科學(xué)等,這些問題絕不是幾代人的努力就可以解決的。宇宙經(jīng)過百億年的演化,才出現(xiàn)生物和人類,其復(fù)雜和巧妙堪稱絕倫,不要指望在我們這一代人手中就能徹底揭開其奧妙。展望數(shù)百萬年甚至更長遠的未來,大數(shù)據(jù)技術(shù)只是科學(xué)技術(shù)發(fā)展長河中的一朵浪花,對10~20年大數(shù)據(jù)研究可能取得的科學(xué)成就不能抱有不切實際的幻想。
4 從復(fù)雜性的角度看大數(shù)據(jù)研究和應(yīng)用面臨的挑戰(zhàn)