【導讀】本文選自楊曉洋于2016年7月7日在清華大學經(jīng)管學院偉倫樓所做的《金融大數(shù)據(jù)架構概述與應用》的演講。他在介紹IBM眼中的幾個大趨勢的同時也講了一些大數(shù)據(jù)基礎架構的內(nèi)容,從技術問題和實際需求出發(fā),采用多個案例說明了構建金融大數(shù)據(jù)架構的具體細節(jié)和重點問題,以及處理大數(shù)據(jù)時候要做這些考慮的原因。
IBM分析事業(yè)部
IBM分析事業(yè)部是在過去一兩年間逐步成型的,成立后分成了若干個小部門,如Analytics Platform、CLOUD DATA SERVICES。非關系型NoSQL的數(shù)據(jù)庫中,Cloudant用的CouchDB就是CLOUD DATA SERVICES其中之一。
三種模式
過去幾年,關于大公司企業(yè)的轉(zhuǎn)型比較多,被新的一些業(yè)務模式?jīng)_擊得很厲害,比如Social、mobile。也不諱言IBM目前也在轉(zhuǎn)型中,可能未來會有一種新的模式支持上述第二種狀況。軟件的能力提交主要有軟件制造商銷售Perpetual License模式,或者軟件制造商提供以云端服務的模式。這兩個模式外很可能還會有第三種模式,就是由技術廠商提供技術,由使用者自己構造它的云的服務。目前大家就是處在用開源和自己寫的狀態(tài)上。
Watson。Watson本質(zhì)上是一個巨大的類人的大腦。原則上構建了很多認知的能力,與人對話,有分析引擎,通過學習和一些技術手法,把不同領域里面構造的技術通過服務呈現(xiàn)出來。例如,Watson Doctor考過美國醫(yī)生資質(zhì),理論上它拿到這個資質(zhì)后是可以行醫(yī)的。但IBM目前不會走這么遠。另外一類,Watson有一個curator for financial data。在投資方需要對某些特定的領域進行個股研究的時候,需要收集各個股的相關資料,包括報表、年度報告、公開的新聞報道、分析師的分析報告等。這些收集起來的數(shù)據(jù)非常繁雜,大量是屬于半結構化、非結構化的數(shù)據(jù)。它就是要把這些資料分門別類地理解,抽取關鍵信息,交給后臺的分析引擎,分析引擎再做出一個決斷。
再談INSIGHT CLOUDSERVICES。Watson很具體化到某一個具體的行業(yè)里面,到了INSIGHT CLOUD SERVICES這個有可能是屬于類似跨決行業(yè),比如和Weather。去年IBM收購了The Weather Company。傳統(tǒng)上,IBM是不碰數(shù)據(jù)的,給出的都是技術。給出數(shù)據(jù)庫,數(shù)據(jù)放到庫里面,跟IBM沒有關系,也不去碰?,F(xiàn)在IBM一定要去碰數(shù)據(jù)了,有些數(shù)據(jù)拿不到,就需要合作,比如Twitter,IBM要與它協(xié)同協(xié)作。統(tǒng)計顯示,Weather這種數(shù)據(jù)每天的查詢量非常大。像這一類的數(shù)據(jù),它對各行各業(yè)的業(yè)務的影響都很大,IBM還會持續(xù)地去關注。
目前來看,IBM是朝著跟云合在一起,跟分析、認知合在一起的方向在發(fā)展,這是一個大的背景。
Awash是一個很特殊的詞,這個世界被浸泡在數(shù)據(jù)里面。我們在用代碼重新構造這個世界。如果把現(xiàn)在的程序員角色想得比較高大上一點的話,就相當于上帝指導下的一批重構世界的人。比如,我們原來面對面說話用耳朵就能夠聽了,現(xiàn)在用手機進行,手機中間構建的這個框架,是讓傳統(tǒng)當面做的事情可以遠程做到,甚至手機可以理解人的對話,當成一個能夠理解人的實體。實際一定程度上,我們是在重新構造這個世界——通過程序的方式、通過編程的方式、通過認知學習的方式構建世界。未來的走勢在IBM看來是一個認知的過程,最終所有服務必須經(jīng)過認知的技術來實現(xiàn)的。
IBM在過去三十年間看到的大趨勢基本上都兌現(xiàn)了,有理由相信,現(xiàn)在看到的大趨勢也會兌現(xiàn)。至于什么時候兌現(xiàn),還需要時間來驗證。
在未來的世界,數(shù)據(jù)就是礦藏。當然數(shù)據(jù)是原始的礦,相當于原油。如果原油不經(jīng)過煉制,人類是沒有辦法使用的?,F(xiàn)在每天有大量的數(shù)據(jù),包括構建金融大數(shù)據(jù)庫,每天的交易數(shù)據(jù)、互聯(lián)網(wǎng)上的數(shù)據(jù),社交媒體上的數(shù)據(jù)等。目前很難直觀地找到這些數(shù)據(jù)的關聯(lián),必須要通過一些手段。我們就把這些手段類比成原油的煉制,用化學手段把它分離出有價值的東西,這樣數(shù)據(jù)就可以驅(qū)動整個世界。
就這些所有的數(shù)據(jù)來看,用得比較多的這些數(shù)據(jù),最重要的是數(shù)據(jù)增長快、非常巨大,種類繁多。就如剛才提到的Watson curator for finance data,雖然拿到的數(shù)據(jù)是別人做的,但最重要的應用的目標是分析。拿到一堆數(shù)據(jù),重要的是怎樣拿到里面的價值。挖這個價值的時候需要大量地使用分析引擎、分析工具。就像在一個湖里撈魚,你要用很好的工具,是用炸藥炸還是用網(wǎng)子撈?撈一些小魚還是大魚?這個過程中間必須要有針對性的處理。要點是說看到了這些數(shù)據(jù),在一個大湖里面,要把有價值的東西取出來才能支撐你的業(yè)務。假如跟京東談,最終的目標是它要使得你下單買東西,這是最主要的核心業(yè)務。它一切的分析工作都是圍繞著,怎么讓一個個體能夠更方便、更快捷、更不過腦子地做決定買一個東西。我們知道買東西大部分都是沖動性購物對商家是最有利的,最終都是圍繞這個目標進行的。這里對于分析的Insight,把數(shù)據(jù)之間的關聯(lián)找到,這是一個大的趨勢。