我們所處的社會已經(jīng)從IT(Information Technology)時代全面跨入DT(Data Technology)時代,數(shù)據(jù)滲透到當(dāng)今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為關(guān)鍵的生產(chǎn)要素之一。從Gartner發(fā)布的大數(shù)據(jù)技術(shù)成熟度曲線圖中可以看出,大數(shù)據(jù)已不在是停留在概念層面,而是正式進入了產(chǎn)業(yè)化應(yīng)用進程中。據(jù)統(tǒng)計,僅全球交通、教育、消費、電力、能源、健康與金融等7大重點領(lǐng)域的大數(shù)據(jù)應(yīng)用潛在價值就在3.2萬億-5.4萬億元左右,大數(shù)據(jù)潛在發(fā)展空間巨大。
然而,從中國信息通信研究院的另一組數(shù)據(jù)表明,國內(nèi)實際的應(yīng)用情況尚有差距,據(jù)統(tǒng)計有44%的企業(yè)還沒有大數(shù)據(jù)部署和應(yīng)用,24%的部署了但未實現(xiàn)大數(shù)據(jù)應(yīng)用,只有1/3的企業(yè)初步應(yīng)用了大數(shù)據(jù),是什么制約了大數(shù)據(jù)的快速普及之路? 中國工程院院士、中國互聯(lián)網(wǎng)協(xié)會理事長鄔賀銓院士在2017大數(shù)據(jù)產(chǎn)業(yè)峰會上表示:"數(shù)據(jù)資源的流動性和可獲取性是大數(shù)據(jù)應(yīng)用和產(chǎn)業(yè)發(fā)展的基礎(chǔ),直接關(guān)系到大數(shù)據(jù)價值的實現(xiàn)情況。"
傳統(tǒng)的統(tǒng)計分析經(jīng)常是對單一數(shù)據(jù)源(營銷數(shù)據(jù)、行政報表、問卷調(diào)查、人口普查等)進行深入的追蹤和分析。分析人員對數(shù)據(jù)的來源和結(jié)構(gòu)有一定的控制和深層的了解。但在大數(shù)據(jù)時代,數(shù)據(jù)源是多樣的、多種形態(tài)的,海量的數(shù)據(jù)常常是半結(jié)構(gòu)或無結(jié)構(gòu)的。從數(shù)據(jù)獲取到最終的數(shù)據(jù)價值呈現(xiàn)要經(jīng)歷數(shù)據(jù)從源頭接入、處理、存儲計算到分析挖掘、應(yīng)用、服務(wù)的完整數(shù)據(jù)生命周期。這就要求數(shù)據(jù)科學(xué)家和分析師駕馭多樣、多源的數(shù)據(jù),將它們梳理后進行挖掘和分析。在這個過程中,數(shù)據(jù)融合就成為不可或缺的一步。
所謂數(shù)據(jù)融合,是以產(chǎn)生決策智能為目標(biāo)將多種數(shù)據(jù)源中的相關(guān)數(shù)據(jù)提取、融合、梳理整合成一個分析數(shù)據(jù)集合,實現(xiàn)數(shù)據(jù)資源的流動和易獲取,從而支撐多樣并呈碎片化的商業(yè)智能服務(wù)使用。來自賽迪智庫的調(diào)研,現(xiàn)實中實施的大數(shù)據(jù)項目至少有80%的時間和經(jīng)費花在了數(shù)據(jù)準(zhǔn)備上,其中多源數(shù)據(jù)的融合是最耗費資源的任務(wù)之一。紐約時報也曾報道: "數(shù)據(jù)科學(xué)家把高達80%的時間用于數(shù)據(jù)準(zhǔn)備而不是用來發(fā)現(xiàn)新的商業(yè)智能".
伴隨著人們對數(shù)據(jù)應(yīng)用價值的不斷渴求,區(qū)別于傳統(tǒng)數(shù)據(jù)統(tǒng)計的需求,用戶對大數(shù)據(jù)的數(shù)據(jù)準(zhǔn)備有著更高的要求:
第一,多源。除了眾所周知的數(shù)據(jù)開放度的影響之外,多源數(shù)據(jù)融合的另一個瓶頸在于如何打破原有垂直建設(shè)系統(tǒng)間的信息孤島、構(gòu)造統(tǒng)一的整體的數(shù)據(jù)平臺,把分散但相互有關(guān)聯(lián)的數(shù)據(jù)以整體的視角看待和思考并進行管理,并且通過這樣的統(tǒng)一平臺,對上層碎片化的或需要快速迭代的大數(shù)據(jù)應(yīng)用進行有效、良好的支撐。比如在數(shù)據(jù)抓取中,要充分考慮傳統(tǒng)企業(yè)已經(jīng)具備大量系統(tǒng)存在的情況,而對于這些系統(tǒng)在不干擾的情況下,如何能夠把數(shù)據(jù)準(zhǔn)確、高效、實時的拿得出來,快速認(rèn)清企業(yè)有什么樣的數(shù)據(jù)原材料。這在非常多的尤其是政府、大型企業(yè)里面是個很大的挑戰(zhàn)。另外,數(shù)據(jù)進來之后,因為系統(tǒng)和系統(tǒng)之間的建設(shè)時間是不同的,數(shù)據(jù)的表現(xiàn)形態(tài)也是各異的,我們要對這些數(shù)據(jù)進行橫向之間的處理并且能把這些數(shù)據(jù)關(guān)聯(lián)起來,讓分散的數(shù)據(jù)形成一個整體,這都是數(shù)據(jù)融合過程中所要解決的問題。
第二,實時。萬物互聯(lián)的趨勢下,人們不僅對于數(shù)據(jù)的數(shù)量,也對數(shù)據(jù)的時效性提出了愈來愈高的要求,有一組數(shù)據(jù)表明12%的管理者都能認(rèn)識到數(shù)據(jù)對于企業(yè)或組織的巨大影響,然而,53%的管理者認(rèn)為太多的核心信息不能及時獲得。特別是在某些連續(xù)性業(yè)務(wù)運轉(zhuǎn)的應(yīng)用場景下,比如通信、金融、安全領(lǐng)域等,需要通過大數(shù)據(jù)技術(shù)對業(yè)務(wù)數(shù)據(jù)進行實時同步的收集、整合與挖掘分析,用以指導(dǎo)甚至是隨時根據(jù)數(shù)據(jù)變化而調(diào)整業(yè)務(wù)策略,而不是把業(yè)務(wù)系統(tǒng)停掉先分析再作出決策。對未來的預(yù)測遠(yuǎn)比做事后諸葛更能體現(xiàn)大數(shù)據(jù)的潛在價值。
第三,海量。在DT時代,數(shù)據(jù)量急劇爆發(fā),據(jù)IDC預(yù)測,目前全球每年數(shù)據(jù)的生產(chǎn)量是 8ZB( 1ZB=1024EB),2020 年將達到 40ZB.我們已經(jīng)從"傳統(tǒng)互聯(lián)網(wǎng)"時代的"線上數(shù)據(jù)化"階段和"互聯(lián)網(wǎng)+"時代的"線下數(shù)據(jù)化"階段,快速進入了"數(shù)據(jù)流通時代",即線上線下全產(chǎn)業(yè)實現(xiàn)數(shù)據(jù)化,數(shù)據(jù)在產(chǎn)業(yè)鏈上下游甚至跨產(chǎn)業(yè)流通并創(chuàng)造價值的階段。在這一過程中,目前數(shù)據(jù)的生產(chǎn)速度和能力遠(yuǎn)遠(yuǎn)大于我們對其使用和價值變現(xiàn)的速度和能力。對數(shù)據(jù)業(yè)務(wù)價值的高期望值和落后的數(shù)據(jù)集成方案之間的矛盾日漸突出?;ヂ?lián)網(wǎng)、物聯(lián)網(wǎng)、云計算,我們的業(yè)務(wù)系統(tǒng)每時每刻都在產(chǎn)生著大量的不同來源的數(shù)據(jù),如何及時、有效、全面的捕獲到這些數(shù)據(jù)是另外一個會直接影響數(shù)據(jù)價值體現(xiàn)的關(guān)鍵因素。