一個(gè)經(jīng)常用到的最佳實(shí)踐就是給數(shù)據(jù)倉庫建立附加列,比如created_date、created_by、update_date及updated_by。通過這些附加列可以對(duì)數(shù)據(jù)進(jìn)行階段性的訪問統(tǒng)計(jì),這樣就可以清楚數(shù)據(jù)的有效周期。這里需要著重對(duì)待的是數(shù)據(jù)清除的邏輯,切記先思考再實(shí)現(xiàn)。如果你使用了一個(gè)歸檔工具,那么數(shù)據(jù)的清除將會(huì)變得非常容易。
不是所有的數(shù)據(jù)都很重要
你可能受不了儲(chǔ)存所有業(yè)務(wù)相關(guān)數(shù)據(jù)的誘惑,你可能有很多的數(shù)據(jù)來源,比如:日志文件、營銷活動(dòng)數(shù)據(jù)、ETL作業(yè)等。你需要明白不是所有數(shù)據(jù)都對(duì)業(yè)務(wù)起關(guān)鍵作用,而且在數(shù)據(jù)倉庫中保存所有的數(shù)據(jù)并不是有益的。在數(shù)據(jù)源過濾掉不需要的數(shù)據(jù),甚至是在儲(chǔ)存到數(shù)據(jù)倉庫之前。不要對(duì)所有的數(shù)據(jù)進(jìn)行存儲(chǔ),只分析你所需的數(shù)據(jù)。
注意哪些數(shù)據(jù)是你想要收集的
拿在線視頻編輯業(yè)務(wù)來說,你會(huì)需要保存你用戶做出的所有操作嗎?這樣的話可能會(huì)產(chǎn)生非常大的數(shù)據(jù)體積,如果你發(fā)現(xiàn)你的數(shù)據(jù)倉庫不足以應(yīng)對(duì)這些數(shù)據(jù),你可能會(huì)考慮只存儲(chǔ)元數(shù)據(jù)。雖然視頻編輯是個(gè)非常極端的例子,然而并不妨礙我們?cè)谄渌美锌紤]這些信息。
總而言之,根據(jù)業(yè)務(wù)的需求只收集所需要的數(shù)據(jù)。
智能分析