眾所周知,數(shù)據(jù)并不像我們以為的那樣整齊,找起來非常不方便。大家都以為谷歌查詢的數(shù)量很大,實際上Weather每天的查詢量更大。谷歌是一個大的搜索公司,未來可能會提供很多分析性相關(guān)的東西,把很多東西都放在里面,每天在全球查詢量是3.5 billion,而Weather是15 billion。它除了查詢天氣預(yù)報以外,傳統(tǒng)查天氣是查北京市的,溫度是多少,Weather里面有一些細(xì)節(jié)的東西,在北京朝陽區(qū)的小片里面那個大概的溫度是多少,中國這邊沒有做到,但在美國做到了。這里要求對數(shù)據(jù)的分析功能,比起在谷歌那邊要嚴(yán)格得多、分析要精細(xì)一些,所以在這里,支撐這15 billion的查詢后面有分析引擎,目前我們正在把這個分析引擎往開放的框架中引。
數(shù)據(jù)生成數(shù)據(jù)的量是非常大的,包括做一次網(wǎng)購。你是用數(shù)據(jù)生成了一堆數(shù)據(jù),看到那些所有的產(chǎn)品是數(shù)據(jù),看到數(shù)據(jù)決定要買,它就再生成進(jìn)一步的數(shù)據(jù),然后這些數(shù)據(jù)再往后逐漸放大,真正要做分析的時候,這個數(shù)據(jù)已經(jīng)到1000倍了。所以在討論金融大數(shù)據(jù)時,不要只看到拿到的某一部分?jǐn)?shù)據(jù)。這些只是其中最初級的原始部分,真正需要的是到最后的結(jié)果。我們考慮構(gòu)建的是從1到1000倍增長的數(shù)據(jù)來看未來的數(shù)據(jù)的服務(wù),所以當(dāng)構(gòu)建的時候,要想到的是現(xiàn)有數(shù)據(jù)庫的1000倍以上,在分析過程中還會產(chǎn)生新的數(shù)據(jù),可能對進(jìn)一步分析有很大的價值。
中間分析的結(jié)果很重要。IBM最近在跟很多國內(nèi)大數(shù)據(jù)相關(guān)的一些產(chǎn)業(yè),比如交通。交通常用的有幾類數(shù)據(jù),一個是手機(jī)信令。對交通來說,這些人在城市里的移動,從哪個點到哪個點,意味著他們的居住地、工作地。這一類人在一個城市大家都從A到B,從C到D,互相交叉,對城市交通產(chǎn)生很大的需求,好的城市交通規(guī)劃應(yīng)該是平衡的,首先你要知道這個平不平衡,你得了解這個人到底在哪里,于是手機(jī)信令成為一個很好的點。拿到手機(jī)信令以后,它不是很準(zhǔn)確,存在誤差。這種情況下要描述一個人一天的軌跡,其實是模糊的狀態(tài)。描述這個軌跡下來以后才能進(jìn)行分析,描述完這個軌跡,首先是對這些軌跡的數(shù)據(jù),分析結(jié)果的數(shù)據(jù)要存起來,以便于下一步分析使用。隨后描述這個人的軌跡、停留時間,再通過各種分析的手法,區(qū)別每個地點的類型和這個人的職業(yè)等信息。這些數(shù)據(jù)要存起來。把原始數(shù)據(jù)通過擴(kuò)散關(guān)聯(lián)的方式找出后面,后面分析結(jié)果還要再進(jìn)一步的考慮。
傳統(tǒng)上,數(shù)據(jù)通常是數(shù)據(jù)源到結(jié)果,目前大家用的比較多的是這種。人們更關(guān)注把數(shù)據(jù)放在哪兒,查詢找到它是什么,這是基本的模式。像萬得那樣的服務(wù),目前基本就是查詢,重要的是它使查詢變得簡潔,做一些預(yù)分析,誰和誰的關(guān)系是怎樣的,把預(yù)分析做死,把它固化在其系統(tǒng)里面,固化在其系統(tǒng)里面,就形成關(guān)聯(lián)的固化關(guān)系,這個信息被存儲起來,所以在萬得的系統(tǒng)里使用、查找就很方便。找到它,尤其是它關(guān)于整個跟金融相關(guān)的元數(shù)據(jù)模型的時候是非常好的。但據(jù)說萬得的元數(shù)據(jù)模型是從Bloomberg學(xué)習(xí)來的,中文化并加入中國特色,給投資人提供很好的界面。據(jù)說目前90%的市場都是萬得的,這個領(lǐng)域以萬得為例來講,雖然它的創(chuàng)新并不大,但可以把這里的東西做得很精細(xì)適用。
Systems of engagement。傳統(tǒng)認(rèn)為,信息系統(tǒng)本質(zhì)上是交易系統(tǒng)。把數(shù)據(jù)提交給后臺的數(shù)據(jù)庫,數(shù)據(jù)庫進(jìn)行交易處理,永久性存儲起來,用可備份的方式使得這個數(shù)據(jù)不會丟失,這筆數(shù)據(jù)的交易就完成了。數(shù)據(jù)系統(tǒng)關(guān)心的是數(shù)據(jù)被永久存儲且不會消失,這部分叫Systems of Record。Record是記錄,是交易型的、記錄型的。
社交媒體、移動、云服務(wù)不斷發(fā)展,比較有代表性的就是微信和銀行。微信不僅是提交一個數(shù)據(jù)存儲,而是它有很多關(guān)系的產(chǎn)生,人和人之間、數(shù)據(jù)和人之間、人和系統(tǒng)之間、系統(tǒng)和系統(tǒng)之間都產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)的存儲、管理、后臺的支撐、經(jīng)常性的變化,它可能對交易的完整性不那么在意。相對來說,發(fā)一條微信丟了再發(fā)一條,可是在銀行存一筆錢,銀行說丟了,大家肯定不干。銀行對數(shù)據(jù)交易的完整性要求非常之高。這個就是產(chǎn)生了Systems of engagement。
Systems of engagement接下來是分析洞察。當(dāng)你有各種System Insight,就是分析洞察,像構(gòu)建的數(shù)據(jù)庫,當(dāng)有大量的交易信息,股票交易信息和大量的社交媒體信息,這就屬于System Engagement。這兩類信息融在一起,找出之間的關(guān)聯(lián),發(fā)現(xiàn)隱藏的關(guān)系,這個時候就到了System Insight。這是IBM和若干公司都非常一致的看法,這是一個基本的概念。這是傳統(tǒng)到現(xiàn)在到未來的變革。未來變革大量使用的就是分析引擎。