數(shù)據(jù)浪潮洶涌而至,摩爾定律、普適計算、數(shù)據(jù)挖掘、社交媒體正強烈影響著我們的生活,在“大數(shù)據(jù)”的現(xiàn)實情景中,個人行為選擇的參照系如何?“大數(shù)據(jù)”又為公共管理和商業(yè)創(chuàng)新帶來何種機遇和挑戰(zhàn)?“大數(shù)據(jù)”如何在中國落地?針對上述命題,上周日,第一財經(jīng)·悅讀會攜手廣西師范大學出版社·理想國,與嘉賓《大數(shù)據(jù)》作者涂子沛、貝格數(shù)據(jù)總裁李常青在復旦大學圍繞“看得見的未來”這一命題進行討論。
《大數(shù)據(jù)》講述了美國半個多世紀信息開放、技術(shù)創(chuàng)新的歷史。涂子沛認為,摩爾定律和普適計算將生成一個機會更平等、信息更充分的時代。如波普爾所言,一個開放的社會,意味著,人們把決定建立在他們自己的才智和掌控之上。他認為,如果一個社會對好的公共生活缺少想象力,是因為這個社會的公眾站在低處,這個低,不是技術(shù)上的,而是價值觀上的,“如果你不能理解愛與分享是生命中極為重要的東西,那么,你也很難真正理解,信息交流與分享對于一個社會的重要性。”
而如何定義“大數(shù)據(jù)”?涂子沛強調(diào),在認識上需要厘清兩個概念:首先,談論“大數(shù)據(jù)”應回到信息公開和數(shù)據(jù)開放這兩個維度,信息公開是“知情權(quán)”意義上的概念,但數(shù)據(jù)開放不僅僅是知情權(quán)的問題;另一方面,“大數(shù)據(jù)”不應該僅僅理解為存儲數(shù)據(jù)的容量,而是挖掘數(shù)據(jù)和計算力的問題,數(shù)據(jù)挖掘是指通過計算器對大量的信息進行分析,從而揭示數(shù)據(jù)之間的關(guān)系、模式和趨勢。
悅讀會:數(shù)據(jù)開放是一個多方博弈的過程,放在中國的語境中,突破口在哪里?同時,博弈需要各個方面的妥協(xié),妥協(xié)的界線是什么?
涂子沛:推動歷史前進最重要的條件是開放,但所有的政府都有一個天性,希望你知道的信息越少越好,這就需要社會形成一個集體的聲音,大家都認識到知情權(quán)的問題時,才能夠形成監(jiān)督的壓力。當你有了社會責任感,當你只有在別人碰到問題的時候發(fā)出自己的聲音,利益的天平才可能變化。我在書里引了一句話:“防止公民犯下錯誤不是政府的責任,但是防止政府犯下錯誤是每一個公民的責任”,你需要發(fā)出聲音。中國社會的冷漠或者不作為,是大家都不發(fā)出聲音。突破口還是公民意識的成長,大家都有公民意識、權(quán)利意識,我們都需要知道,美國社會的公開是個漫長的過程。
整個社會需要一個表達利益的機制,同時我們需要理性抗爭,需要妥協(xié),界線在于非暴力,整個社會的發(fā)展需要在一個共贏的狀態(tài)中,利益的天平不可能永遠公正,所有人都發(fā)出了聲音,有可能照顧不到你的聲音,但是你需要持續(xù)地去發(fā)出自己的聲音,利益的天平才可能改變,這是不斷調(diào)整的過程,歷史就是這樣發(fā)展過來的。
李常青:現(xiàn)在,中國逐漸開放數(shù)據(jù),政府逐漸開放數(shù)據(jù)了,但是需要一些專業(yè)的公司把這些數(shù)據(jù)變成可閱讀的,我想數(shù)據(jù)挖掘這一塊,數(shù)據(jù)開放了,最終還是需要讓個人能夠解讀,這方面可能需要我們做更多的工作。
悅讀會:數(shù)據(jù)的大量涌現(xiàn),出現(xiàn)了很多非結(jié)構(gòu)化的數(shù)據(jù),在數(shù)據(jù)的語義挖掘方面,有沒有更好的方法?
李常青:金融數(shù)據(jù)的品種越來越多,確實存在很多非結(jié)構(gòu)化的數(shù)據(jù),很多文本、網(wǎng)上的消息都可以作為數(shù)據(jù)公司提取數(shù)據(jù)的來源,我們的挖掘手段統(tǒng)稱大數(shù)據(jù)技術(shù),這個概念提出很早了,但還需要能夠真正落地。阿里巴巴就可以拿出一個具體的數(shù)據(jù)出來,所有貿(mào)易交易的數(shù)據(jù)顯示去年一段時間下滑很厲害,這個數(shù)據(jù)很早就可以預測經(jīng)濟形勢,通過數(shù)據(jù)挖掘形成一個數(shù)據(jù)報告,其產(chǎn)生的價值會很大。很多數(shù)據(jù)都是可以進行語義挖掘的,但是一般人無法使用,需要專業(yè)的數(shù)據(jù)公司進行精確化處理。
涂子沛:視頻數(shù)據(jù)越來越多,現(xiàn)在語義分析的難點在哪里,不僅是數(shù)字挖掘,還包括視頻挖掘、圖像挖掘。比如,某位經(jīng)濟學家現(xiàn)在發(fā)表了一個什么觀點,那么我們需要把他歷次發(fā)表過的觀點、他出現(xiàn)過的視頻很快地進行挖掘,現(xiàn)在這個技術(shù)在很多領(lǐng)域都可以使用。再比如,所有在鏡頭中出現(xiàn)過玫瑰花的電影,你能否一下子把它找出來?這些語義發(fā)掘正顯示出越來越重要的意義。
讀者:大數(shù)據(jù)的行業(yè)前景如何?哪個行業(yè)在我們國家比較有前景?
涂子沛:中國面臨的問題是大數(shù)據(jù)落地很難,難在哪里?首先一個原因是缺少數(shù)據(jù)運用的內(nèi)驅(qū)力,比如,電信有那么多數(shù)據(jù),但它沒有驅(qū)動力去分析這些數(shù)據(jù)。它有很多領(lǐng)域可以賺錢,為什么還要去分析數(shù)據(jù)?但如果它需要面對充分的市場競爭,需要它對競爭的應對更加精細化,自然就會進行數(shù)據(jù)挖掘。究竟哪個領(lǐng)域,更容易落地?領(lǐng)域很多,比如氣候,氣候數(shù)據(jù)非常大,真正海量數(shù)據(jù),還有交通數(shù)據(jù),也是非常龐大的數(shù)據(jù),每個攝像頭產(chǎn)生的數(shù)據(jù),經(jīng)過分析和運用都是財富。雖然大數(shù)據(jù)目前在中國落地很難,但這是一個未來的趨勢。
李常青:產(chǎn)生大數(shù)據(jù)的行業(yè)條件是,它需要有很多數(shù)據(jù)的積累,有人認為在中國只有大的互聯(lián)網(wǎng)公司能做大數(shù)據(jù),這個觀點我不大認同。但是反過來看,可能會合理很多,說中國做大了的互聯(lián)網(wǎng)公司都在做大數(shù)據(jù),這個我是認同的,因為一方面是因為他們積累了很多用戶交易數(shù)據(jù),才可能延伸出更多的運用,催生出新的商業(yè)機會。就中國來講,目前發(fā)展不錯的行業(yè),也能夠佐證我這個觀點,比如定位系統(tǒng)的行業(yè),一是它數(shù)據(jù)量大、準確度高,再一個它跟你的生活關(guān)聯(lián)度較高,這類行業(yè)的商業(yè)機會會好一些。另外一個我所從事的金融數(shù)據(jù)業(yè),我也很看好,金融行業(yè)的數(shù)據(jù)量很大,各個金融機構(gòu)產(chǎn)生的數(shù)據(jù)都是我們分析的對象,同時我們還需要關(guān)注外界對他們的評價,各種新聞、各種消息,都是我們的基礎數(shù)據(jù),這些數(shù)據(jù)挖掘、運用得好,數(shù)據(jù)增值空間會很大。所以,數(shù)據(jù)量大,跟生活關(guān)系密切,數(shù)據(jù)挖掘和數(shù)據(jù)結(jié)構(gòu)做得比較合理的話,可能都是很好的商業(yè)機會。
讀者:我們?nèi)绾瓮ㄟ^改變思維方式來推動大數(shù)據(jù)在中國落地?
涂子沛:還是要改變思維慣性,重視數(shù)據(jù),在中國做大數(shù)據(jù)要從小數(shù)據(jù)做起。大數(shù)據(jù)對于中國為什么那么重要?我想它對中國社會的特殊意義在于,不僅僅是一個技術(shù)浪潮,也是中國社會提高對數(shù)據(jù)認識的契機,我們需要用數(shù)據(jù)來說話,成為論證自己的工具。數(shù)據(jù)的精神歸根到底是理性的精神,數(shù)據(jù)歸根到底是對世界的一個客觀反映,中國社會缺乏這種精神,閱讀和分析數(shù)據(jù)應該成為一個人的知識結(jié)構(gòu)中很基礎的一部分。