集成策略
數(shù)據(jù)集成是指將來源于不同系統(tǒng)的數(shù)據(jù)組合在一起,供業(yè)務用戶研究不同的行業(yè)行為及客戶行為的數(shù)據(jù)處理方式。在數(shù)據(jù)集成應用早期,數(shù)據(jù)僅限于交易系統(tǒng)及其應用。業(yè)務決策的制定以決策平臺為指導,而有限的數(shù)據(jù)集提供了創(chuàng)建決策平臺的基礎。
數(shù)據(jù)容量與數(shù)據(jù)類型在過去三十年里大幅增長,數(shù)據(jù)倉庫技術(shù)從無到有,基礎架構(gòu)和技術(shù)的發(fā)展?jié)M足了分析和數(shù)據(jù)存儲需求。這一切徹底改變了數(shù)據(jù)集成的前景。
傳統(tǒng)數(shù)據(jù)集成技術(shù)主要關(guān)注于架構(gòu)和相關(guān)編程模型的ETL、ELT、CDC和EAI類型。然而,在大數(shù)據(jù)環(huán)境里,這些技術(shù)需要根據(jù)規(guī)模和處理復雜度等需求進行修改,其中包括需要處理的數(shù)據(jù)格式。實現(xiàn)大數(shù)據(jù)處理需要兩個步驟。第一步是實現(xiàn)數(shù)據(jù)驅(qū)動的架構(gòu),其中包括數(shù)據(jù)處理的分析和設計。第二步是物理架構(gòu)實現(xiàn),我們將在下面的章節(jié)介紹這個步驟。
數(shù)據(jù)驅(qū)動的集成
在建造下一代數(shù)據(jù)倉庫的技術(shù)方法中,企業(yè)中所有數(shù)據(jù)首先會根據(jù)數(shù)據(jù)類型進行分類,也會考慮到數(shù)據(jù)本身的性質(zhì)及其相關(guān)的處理需求。數(shù)據(jù)處理過程將會用到內(nèi)置在處理邏輯中并且整合到一系列編程流程中的業(yè)務規(guī)則,數(shù)據(jù)處理會使用到企業(yè)元數(shù)據(jù)、MDM和語義技術(shù)(分詞技術(shù))等。
圖10.3顯示了各類數(shù)據(jù)的入口數(shù)據(jù)處理過程。這個模型首先基于數(shù)據(jù)的格式和結(jié)構(gòu)劃分數(shù)據(jù)類型,然后再進行ETL、ELT、CDC或文本處理技術(shù)中各個層次的規(guī)則處理。下面,讓我們來分析一下數(shù)據(jù)集成架構(gòu)及其優(yōu)點。