6月7日消息,據(jù)國外媒體報道,IBM今日宣布發(fā)布名為“數(shù)據(jù)科學(xué)實驗”( Data Science Experience)的通用數(shù)據(jù)平臺。其寄希望于通過該平臺整合各個不兼容系統(tǒng)中獨立存儲的數(shù)據(jù),從而對這些數(shù)據(jù)進行深入分析。
數(shù)據(jù)科學(xué)家,有人也稱之為硅谷的統(tǒng)計學(xué)家,其潛力毋庸置疑。但目前對其作用不乏出現(xiàn)了一些失望。這個問題并不是關(guān)于大數(shù)據(jù)本身,而是相關(guān)技術(shù)的實用性。簡單的說,我們最先設(shè)計的系統(tǒng)能夠執(zhí)行特定的任務(wù),進行特定的數(shù)據(jù)分析,隨后發(fā)現(xiàn)我們想讓它做的更多,作用更大。當(dāng)需求明確起來時,會發(fā)現(xiàn)最大的問題是系統(tǒng)的兼容性。
而現(xiàn)在IBM發(fā)布的通用平臺就是用于解決不同系統(tǒng)的兼容性問題,通過整合不同系統(tǒng)、各種格式的數(shù)據(jù),有助于公司進行管理,或參與市場競爭。
通用平臺的重要性
歐洲核研究組織CERN一直以來是世界上最大的科研機構(gòu)之一。它曾經(jīng)發(fā)現(xiàn)了反物質(zhì)的分離,近期正在進行希格斯玻色子的相關(guān)研究。這里的工作與六個諾貝爾獎的誕生有關(guān)。
然而,當(dāng)?shù)倌?middot;伯納斯·李(Tim Berners-Lee)于1980年在那里工作時,他注意到該研究中心有一個非常棘手的問題。世界各地的研究人員來到這里進行科學(xué)實驗,并記錄下他們的結(jié)果。但是,這些實驗結(jié)果被以不同的格式存儲在不同的系統(tǒng)中,使得相互之間難以共享。
因此,李于1989年11月創(chuàng)建了三個著名協(xié)議:HTTP、URL以及HTML,創(chuàng)建了關(guān)于文檔的通用平臺。最終這三個協(xié)議構(gòu)成了現(xiàn)有互聯(lián)網(wǎng)的基石,使得我們能夠以前所未有的方式共享信息,在很多方面最終改變了世界。
盡管如此,李在回憶錄中還是承認這種網(wǎng)絡(luò)的缺點:雖然它能夠以前所未有的方式使人與人進行溝通,但是對于機器與機器之間的通信卻做得很少。換句話說,它讓我們呢的思想能夠自由流動,但我們的數(shù)據(jù)卻依舊被困在各自的系統(tǒng)中。
數(shù)據(jù)的問題
現(xiàn)在的每個組織在數(shù)據(jù)上都存在類似CERN在上世紀80年代所遇到的問題。他們通過各個系統(tǒng)收集數(shù)據(jù),由不同的部門管理,很多系統(tǒng)有幾十年的歷史,所應(yīng)用的計算環(huán)境也完全不同。
諸如一個典型的零售企業(yè),其有各自獨立的采購、銷售、庫存以及市場業(yè)務(wù)。所有的這些業(yè)務(wù)在與真實世界交互的過程中,都在不斷地產(chǎn)生和存儲數(shù)據(jù)。理想情況下,這些系統(tǒng)應(yīng)當(dāng)是緊密集成的,一個業(yè)務(wù)產(chǎn)生的新數(shù)據(jù)可以影響到另外業(yè)務(wù)的決策。
但事實上,不同的業(yè)務(wù)之間很難無縫對接、攜手共進。這些系統(tǒng)往往以不同的格式存儲信息,這使得人們很難獲得數(shù)據(jù)的全部價值,譬如現(xiàn)實中營銷活動的相關(guān)數(shù)據(jù)會影響網(wǎng)站和商店的客流量,但是作為決策者經(jīng)常需要將其從系統(tǒng)中提取出來加載到分析表格中。
實際上,我們有了分析海量數(shù)據(jù)并獲得相應(yīng)決策的工具。屈臣氏所使用的高級認知系統(tǒng)可以利用大數(shù)據(jù)進行學(xué)習(xí),指導(dǎo)相應(yīng)的行動決策。但對于這些工作的共性前提是,需要訪問不同系統(tǒng)的信息數(shù)據(jù)。
建立綜合數(shù)據(jù)環(huán)境
這一切并不是說,我們處理數(shù)據(jù)的方式在過去十年并沒有真正的進步。于2003年上線的Hadoop可以將數(shù)據(jù)分散存儲在成千上萬個世界各地的服務(wù)器中,并將其看作一個數(shù)據(jù)集進行分析。而2014年發(fā)布的星火系統(tǒng),可以幫助人們實時分析數(shù)據(jù)。但是,目前不同系統(tǒng)的兼容性仍是數(shù)據(jù)分析面臨的最大問題。
讓我們回到零售業(yè)的例子,假設(shè)我們能夠?qū)崟r的營銷活動建立一個采購預(yù)測模型,將其與庫存系統(tǒng)的數(shù)據(jù)整合到一起,使我們能夠避免缺貨或是庫存過多??雌饋砗芎唵?,但是由于數(shù)據(jù)分散在各個獨立的系統(tǒng)中,所以很難實現(xiàn)。
這也是IBM的數(shù)據(jù)科學(xué)實驗這個通用平臺所要解決的問題。IBM副總裁羅伯·托瑪斯(Rob Thomas)、大數(shù)據(jù)革命一書的作者告訴我,“今天數(shù)據(jù)科學(xué)是一項個人項目。我們現(xiàn)在所做的就是要把它變成一項團隊項目,各個獨立的組織可以共同創(chuàng)建、分析以及共享數(shù)據(jù)。”
可以說,IBM數(shù)據(jù)科學(xué)家在實現(xiàn)李對互聯(lián)網(wǎng)所做的工作,只不過處理對象從文檔換成了數(shù)據(jù)。將分布于世界上的各個孤島數(shù)據(jù)整合到單一的系統(tǒng)環(huán)境,使人們更有效的工作。