中國IDC圈4月28日報道,互聯(lián)網的發(fā)展使得大數(shù)據(jù)引起人們廣泛關注?,F(xiàn)如今大數(shù)據(jù)技術早已滲透到金融、通訊等行業(yè)以及生物學、物理學等領域。大數(shù)據(jù)在容量、多樣性和高增速方面的爆炸式增長全面考驗著現(xiàn)代企業(yè)的數(shù)據(jù)處理和分析能力,與此同時也為各個行業(yè)帶來了準確洞察市場行為的機會。迄今為止大數(shù)據(jù)技術與產品有哪些創(chuàng)新,工業(yè)大數(shù)據(jù)應用面臨哪些挑戰(zhàn),金融行業(yè)大數(shù)據(jù)應用現(xiàn)狀如何等。圍繞這一系列問題,4月27日至28日,由工業(yè)和信息化部指導、中國信息通信研究院主辦的"2016大數(shù)據(jù)產業(yè)峰會"在北京國際會議中心盛大召開。28日上午大數(shù)據(jù)推動金融創(chuàng)新分論壇北京大學信息管理系研究員、助理教授化柏林做了主題演講。
北京大學信息管理系研究員、助理教授化柏林
以下是化柏林演講實錄:
化柏林:很高興有這樣一個機會對多源數(shù)據(jù)融合的研究跟大家做一個交流,剛才聽了工行和建行兩位老總的介紹,我感覺心里特別踏實,為什么說踏實?因為我的工資在工行里,我的公積金在建行里,我的主要收入都在這兩個銀行里。大家通過這兩個PPT可以發(fā)現(xiàn)一些共性,這個共性就是他們是在文地中談創(chuàng)新,這是銀行特別是國有銀行的風格。我們談互聯(lián)網談大數(shù)據(jù)創(chuàng)新的新型企業(yè)不是這樣的思維模式,上來就是講顛覆,就是拋棄一切。前面那種技術平臺的架構都是從過去的技術開始逐步演進過來,錢放在這兩個銀行里我是放心的。
他們的差異性和信息安全的問題。我先舉一個例子,前年斯諾登事件爆出來之后,很多新聞媒體都在說個人隱私信息泄露的問題,一個國家一個組織花這么多錢關注數(shù)據(jù)和媒體,他會關注一個普通網民的個人信息嗎?我覺得是不會的。除非作為用戶的群體去分析這個群體的特征。棱鏡計劃主要關注什么,第一是恐怖,第二宗教文化變遷的戰(zhàn)略影響。第三,中國與發(fā)展中國家的科學技術與軍事轉型,我們國家每年的863計劃、973計劃、十一五重大專項等等項目,每當我們公布出名單,國外就會迅速地跟蹤和分析。國內搞科技情報,我們也是一樣,美國每年出來一些新項目,他們的大飛機、航空航天領域的技術也會迅速地被我們跟蹤。還有能源和環(huán)境的目標任務。要實現(xiàn)一些目標的基礎,像谷歌、Facebook的數(shù)據(jù),基于這樣的數(shù)據(jù)類型,我們在想僅僅有這樣的數(shù)據(jù)無法實現(xiàn)剛才的目標,要實現(xiàn)這樣的目標就得把這些信息融合起來,通過谷歌的檢索日志可以看出關注信息點的興趣及變化,根據(jù)Facebook、paltalk可以看出社交。把所有信息融合到一起,對一個用戶的畫像,對恐怖分子的頭會有更加清晰的認識。這對于我們金融大數(shù)據(jù)也有一定的借鑒和參考意義。
再來看一個例子,這是在網上廣泛流傳的例子,根據(jù)丹麥的統(tǒng)計數(shù)據(jù),截止到2002年42萬人中有14249人被確診患癌癥,按照流行病的預測有1.5萬例,預測使用手機和癌癥的發(fā)生并無直接關聯(lián)。只看這個案例好像沒什么問題,根據(jù)WHO的統(tǒng)計,全球前十名癌癥發(fā)病率的國家分別為丹麥、愛爾蘭、澳大利亞等,看這個指標,發(fā)病率是一個好的指標,排在前邊幾位的都是非常發(fā)達國家的國家或者是國民福利比較好的國家。但是我們把這兩個數(shù)據(jù)放在一起,第一個數(shù)據(jù)42萬人里有14249,概率是3.4%。第二個數(shù)據(jù)10萬人里有326,數(shù)據(jù)僅為0.33%,這兩個數(shù)據(jù)放在一起我們可以斷定肯定有一個數(shù)據(jù)是錯的,因為差了一個數(shù)據(jù)級。我們查了原文,第一個例子是錯的,這個例子在網上流傳得很多,單看單個數(shù)據(jù)沒有問題,但是在不同數(shù)據(jù)放在一起做交叉驗證和融合,可能會有一些問題和發(fā)現(xiàn),對于金融大數(shù)據(jù)也有借鑒和參考意義。我把不同類型的數(shù)據(jù)放在一起去做融合、交叉和比對就會發(fā)生一些新的問題,對于風險的防控會有更好的監(jiān)測。
大數(shù)據(jù)特點與分析理念,三年前談還有人聽,現(xiàn)在再談已經沒有人聽了。除了這三個理念的轉變,數(shù)據(jù)的基礎、過程、目標上還有一點很重要的,過去我們注重單一的數(shù)據(jù),現(xiàn)在我們需要多元的數(shù)據(jù),我們用單一的數(shù)據(jù)去寫數(shù)字報告已經很難吸引人,去得到領導的肯定和關注了。不同的企業(yè)在尋求跨界和融合,去打通數(shù)據(jù),使數(shù)據(jù)的價值有倍增的效應。為什么這么說?一方面是單一的數(shù)據(jù)有失全面性,無法全面刻畫事物及事物運動的變化。單一數(shù)據(jù)的可靠性和真實性有時候難以判定,通過多源數(shù)據(jù)的交叉引證有助于對數(shù)據(jù)的真?zhèn)涡员鎰e,數(shù)據(jù)越來越大,我們辨別數(shù)據(jù)真?zhèn)蔚哪芰τ写谔岣摺膯我粩?shù)據(jù)里發(fā)現(xiàn)的洞察是非常單一的。多元數(shù)據(jù)可以有更多的發(fā)現(xiàn)。