了解你的數(shù)據(jù)(倉庫)
一般來說,存儲(chǔ)和分析大數(shù)據(jù)要么在企業(yè)數(shù)據(jù)倉庫(EDW)中,要么與它合作。整合大數(shù)據(jù)解決方案的所有部分將需要接口到數(shù)據(jù)倉庫流程的每個(gè)部分。以下是數(shù)據(jù)倉庫主要子系統(tǒng)的概要。隨后,我們將討論他們是如何受到大數(shù)據(jù)的影響,以及實(shí)施前如何規(guī)劃。
數(shù)據(jù)的采集和收集
企業(yè)數(shù)據(jù)倉庫(EDW)存儲(chǔ)來自原始源系統(tǒng)。它們是典型的實(shí)時(shí)處理業(yè)務(wù)數(shù)據(jù)的系統(tǒng)。例如客戶接口系統(tǒng),如自動(dòng)取款機(jī)(ATM)和銀行出納員, 在線訂單輸入、客戶檔案管理、會(huì)計(jì)系統(tǒng),等等。
數(shù)據(jù)轉(zhuǎn)換和移動(dòng)
雖然大多數(shù)業(yè)務(wù)數(shù)據(jù)在其原來的形式是可用的,有一些卻需要轉(zhuǎn)換,或“清洗”。典型的例子包括無效的日期(如02-31-2013、99-99-9999、或空格), 缺失數(shù)據(jù) (一個(gè)不存在的客戶訂單), 未知的數(shù)據(jù) (當(dāng)前開戶帳號(hào)的關(guān)閉帳戶日期)等。企業(yè)數(shù)據(jù)倉庫(EDW)的轉(zhuǎn)換流程處理源數(shù)據(jù)的清洗將它以可用的形式存儲(chǔ)在數(shù)據(jù)庫中。
這個(gè)子流程的另一部分是從源系統(tǒng)移動(dòng)數(shù)據(jù)到企業(yè)數(shù)據(jù)倉庫(EDW)??赡苄园ㄎ募鬏?、消息傳遞,甚至高速硬件鏈接。
數(shù)據(jù)暫存和設(shè)置主鍵
企業(yè)數(shù)據(jù)倉庫中常見在一個(gè)暫存區(qū)域存儲(chǔ)最初獲取的數(shù)據(jù), 通常是臨時(shí)文件或DB2表。在加載到企業(yè)數(shù)據(jù)倉庫(EDW)之前在那里進(jìn)行數(shù)據(jù)積累和相互參照。
鍵控是一個(gè)流程, 企業(yè)數(shù)據(jù)倉庫(EDW)中的實(shí)體被分配一個(gè)代理鍵。為什么不使用數(shù)據(jù)的自然鍵, 如賬戶號(hào)碼或客戶編號(hào)? 企業(yè)數(shù)據(jù)倉庫(EDW)是來自多個(gè)業(yè)務(wù)系統(tǒng)的實(shí)體積累。為了跨系統(tǒng)比較,鍵必須有共同的屬性。比如“帳號(hào)”,企業(yè)可能支持該數(shù)據(jù)的許多不同格式, 每個(gè)都有不同的數(shù)據(jù)類型和長度。指定一個(gè)代理鍵允許分析使用一個(gè)共同的鍵比較這些實(shí)體。
數(shù)據(jù)的訪問和分析
有了企業(yè)數(shù)據(jù)倉庫(EDW)中存儲(chǔ)的數(shù)據(jù),現(xiàn)在可以開始分析了。大多數(shù)IT企業(yè)為用戶提供軟件包執(zhí)行詳細(xì)的分析。有時(shí)被稱為商業(yè)智能分析。一些軟件包直接訪問數(shù)據(jù)倉庫數(shù)據(jù), 而一些為局部分析提取數(shù)據(jù)的子集。
數(shù)據(jù)歸檔
最終數(shù)據(jù)倉庫中的數(shù)據(jù)老化或變得無關(guān)緊要。從倉庫中刪除舊數(shù)據(jù)并存檔。重要的是倉庫人員與業(yè)務(wù)部門協(xié)調(diào)做分析, 確定歸檔數(shù)據(jù)可以是否簡單地存儲(chǔ)(比如,在磁帶上), 或是否它必須保留,看法規(guī)和業(yè)務(wù)需要以后會(huì)重新加載。
大數(shù)據(jù)如何影響數(shù)據(jù)倉庫
業(yè)務(wù)處理的大數(shù)據(jù)將涉及以下一種或多種:
●從數(shù)據(jù)源捕獲大量數(shù)據(jù)
●數(shù)據(jù)高速到達(dá)存儲(chǔ)
●半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。
這就提出了一個(gè)有趣的問題: 如果還沒有分析,你如何知道什么大數(shù)據(jù)要存儲(chǔ)? 或者, 沒有收集和存儲(chǔ),你怎么能分析大數(shù)據(jù)?
這個(gè)問題是大數(shù)據(jù)實(shí)現(xiàn)的重點(diǎn)。甚至涉及大數(shù)據(jù)分析的一個(gè)小測試或試驗(yàn)項(xiàng)目都要求數(shù)據(jù)必須是獲取和存儲(chǔ)的。為了在一個(gè)分析解決方案中確定的風(fēng)險(xiǎn)和投資回報(bào),必須首先通過數(shù)據(jù)倉庫的采集、清洗、分段和鍵控步驟處理大數(shù)據(jù);否則,能夠比較和加入到數(shù)據(jù)倉庫是極其困難的。
下一步是確定每個(gè)進(jìn)程在企業(yè)級(jí)數(shù)據(jù)倉庫中是如何受影響的。
數(shù)據(jù)采集和收集
大數(shù)據(jù)通常就意味著:大量的數(shù)據(jù)。你必須為數(shù)據(jù)分配硬件、軟件和存儲(chǔ)媒介。包括應(yīng)急存儲(chǔ)數(shù)據(jù), 直到它可以移動(dòng)到數(shù)據(jù)倉庫, 以防止由于硬件減速有延誤。也要確定這些新資產(chǎn)和過程將如何影響你的災(zāi)難恢復(fù)計(jì)劃。
最初的大數(shù)據(jù)實(shí)現(xiàn)將最有可能意味著繞過企業(yè)級(jí)數(shù)據(jù)倉庫流程,就地在源大數(shù)據(jù)上測試你的新分析軟件。任何方案的成功都應(yīng)該考慮的是新的分析屬于數(shù)據(jù)倉庫的數(shù)據(jù)訪問和分析過程的整合。
數(shù)據(jù)轉(zhuǎn)換和移動(dòng)
一些大數(shù)據(jù)的實(shí)施包括非結(jié)構(gòu)化數(shù)據(jù)。像音頻、圖像和視頻文件,文檔圖像、傳真等等。(雖然從技術(shù)上講,這數(shù)據(jù)是結(jié)構(gòu)化的,這樣它就可以聽到或看到,大數(shù)據(jù)中語境下結(jié)構(gòu)這個(gè)詞意味著數(shù)據(jù)實(shí)體、屬性和關(guān)系。換句話說, 存儲(chǔ)在DB2表中的記錄、字段和鍵。)
另一個(gè)選擇是半結(jié)構(gòu)化的數(shù)據(jù),最常見的例子是一種可擴(kuò)展標(biāo)記語言(XML)流。很多業(yè)務(wù)應(yīng)用程序使用XML作為數(shù)據(jù)的編碼方法的常用格式。該數(shù)據(jù)可以讀取、存儲(chǔ)、和由多個(gè)應(yīng)用程序處理。
當(dāng)前版本的DB2允許在本地格式存儲(chǔ)XML數(shù)據(jù),不要任何預(yù)處理或解碼進(jìn)入DB2表。這個(gè)特性使得存儲(chǔ)、檢索和分析XML數(shù)據(jù)更加容易。
數(shù)據(jù)移動(dòng)引出另一個(gè)問題??焖僖苿?dòng)大量數(shù)據(jù)可能需要額外的資源,甚至特殊的軟件。
更多詳細(xì)信息,請您微信關(guān)注“計(jì)算網(wǎng)”公眾號(hào):