一年又一年過去了,磁盤空間的成本已經(jīng)顯著下降,50美元就可以買到TB的磁盤,似乎幾乎可以不考慮磁盤成本。在企業(yè)物理環(huán)境,你不會(huì)考慮磁盤空間,但是在云環(huán)境中,你必須考慮,否則你將為此付出代價(jià)。
但是在云環(huán)境中,又是另一回事了。如果你的云空間有太多低價(jià)值的數(shù)據(jù)或者太多文件副本,會(huì)給你帶來兩方面的不必要的開銷。首先是每月的存儲(chǔ)費(fèi)用,第二個(gè)是不可避免的性能影響,尤其是涉及搜索、查看、報(bào)告和系統(tǒng)更新時(shí)。在云環(huán)境中,確實(shí)有必要對(duì)數(shù)據(jù)進(jìn)行管理,包括精簡(jiǎn)、重復(fù)數(shù)據(jù)刪除和壓縮等。
第一個(gè)步驟是評(píng)估問題:是文檔?還是表數(shù)據(jù)?這些數(shù)據(jù)類型通常有不同的存儲(chǔ)限制,對(duì)這些數(shù)據(jù)進(jìn)行管理所使用的策略和工具往往存在很大差異。
文檔通常是作為記錄的附件(例如簽署合同的PDF格式),用戶可能不能輕易找到它們。相同的文檔可能被附到三個(gè)或者四個(gè)不同的記錄,此外,你還需要考慮其他情況,例如用戶為迅速變化的文檔附上了每個(gè)版本。第一件要做的事情是建立一份系統(tǒng)文檔的清單(包括它們附加的記錄ID,以及最后一次更新日期等),并使用電子表格過濾器,刪除重復(fù)內(nèi)容。市面上有很多很好用的重復(fù)文件刪除工具(通過檢測(cè)文件的內(nèi)容來刪除),但是不知道這些文件工具是否能夠直接在云應(yīng)用中使用。除非你愿意下載所有文件內(nèi)容到你自己的服務(wù)器來進(jìn)行深度分析,否則你只能使用元數(shù)據(jù)分析來管理文件。另外,由于光盤存儲(chǔ)很便宜,你還可以將你從云環(huán)境刪除的所有文件保存在光存儲(chǔ)中,以防過后有人需要這些數(shù)據(jù)。
表數(shù)據(jù)又是另一回事了,對(duì)于不同類型的云服務(wù),有很多系統(tǒng)特定的技巧和技術(shù)。下面是通用的管理表數(shù)據(jù)的步驟:
確定你的云系統(tǒng)真的存儲(chǔ)存儲(chǔ)問題。一些系統(tǒng)(例如財(cái)務(wù)系統(tǒng))因?yàn)樾枰獙徲?jì),并且必須在長(zhǎng)期內(nèi)保存所有細(xì)節(jié)信息,因而不能進(jìn)行刪減。其他系統(tǒng)(例如營(yíng)銷自動(dòng)化或者日志分析)通常收集大量細(xì)節(jié)信息,而這些不必要的信息毫無疑問將會(huì)拖慢系統(tǒng)速度。
確定哪些表數(shù)據(jù)消耗超過總存儲(chǔ)量的20%,將注意力放在這里。
對(duì)于每個(gè)表數(shù)據(jù),弄清楚單個(gè)記錄的價(jià)值。一些表數(shù)據(jù)(特別是帳戶或者聯(lián)系方式)是不可以觸碰的,因?yàn)榭赡苌婕半[私信息,并且刪除這些信息可能帶來不必要的麻煩(尤其是當(dāng)這些表數(shù)據(jù)與外部系統(tǒng)息息相關(guān)時(shí))。其他表數(shù)據(jù),例如營(yíng)銷自動(dòng)化系統(tǒng)中的“匿名信息”,完全可以刪除。
再進(jìn)行下一步之前,將所有云服務(wù)的數(shù)據(jù)完整備份到磁盤或者光學(xué)媒介,我想說的是:這個(gè)步驟很重要。
對(duì)于你可以自由刪減的表數(shù)據(jù),可以考慮采用“信噪比”的方法。對(duì)于完全無關(guān)緊要的信息,是否需要保留一段時(shí)間?例如,在營(yíng)銷自動(dòng)化或者網(wǎng)絡(luò)監(jiān)控云中,我們是否真正關(guān)心6個(gè)月以前的匿名訪問者?信噪比分?jǐn)?shù)小于零的信息是否能夠刪除?采用這個(gè)方法前,請(qǐng)確保首先得到所有相關(guān)用戶群的同意,基于信噪比的數(shù)據(jù)刪減方法可以在短時(shí)間內(nèi)刪除數(shù)百萬(wàn)條不必要的記錄。
有些表數(shù)據(jù)的信噪比分?jǐn)?shù)不錯(cuò),但是隨著時(shí)間的推移,這些存儲(chǔ)的細(xì)節(jié)信息并不值得。例如,很多營(yíng)銷自動(dòng)化和E-mail blasting系統(tǒng)使用活動(dòng)表來記錄重要電子郵件和網(wǎng)絡(luò)交互活動(dòng)。這些活動(dòng)表可能占據(jù)系統(tǒng)一半的存儲(chǔ)。但是一年前用戶是否觀看了視頻A或者視頻B有多重要?使用這個(gè)作為“試金石”:如果特定細(xì)節(jié)信息不會(huì)實(shí)際改變?nèi)魏稳说臎Q定或者行為,它就不再是“信息”。在這種情況下,我們建議采用壓縮的方法:保存信息,然后在六個(gè)月左右后刪除大部分信息。這些歷史信息通常作為自定義表存儲(chǔ),形式包括令牌字符或者微小存儲(chǔ)需求的位圖。這個(gè)策略需要認(rèn)真的考慮,但是可以基于信息價(jià)值刪減很多不必要的信息。
一些表數(shù)據(jù)(特別是聯(lián)系信息等)可以在短時(shí)間內(nèi)收集大量重復(fù)信息,尤其是當(dāng)你的公司在信息收集和處理方面存在問題時(shí)。如果你的云系統(tǒng)提供重復(fù)數(shù)據(jù)刪除工具(來自主要供應(yīng)商或者第三方),那么可以買一個(gè)好點(diǎn)的工具,然后認(rèn)真研究。最好的工具具有模糊邏輯算法,可以讓你在不需要將數(shù)據(jù)移出云環(huán)境的情況下找到和合并重復(fù)數(shù)據(jù)。這個(gè)合并過程適用于大多數(shù)數(shù)據(jù),但是如果你有很多數(shù)據(jù)沖突(例如,相同用戶的兩個(gè)不同的手機(jī)號(hào)碼)的話,你可能需要在進(jìn)行合并前,創(chuàng)建陰影域,使用不同的數(shù)據(jù)來進(jìn)行預(yù)先填充。出于多種原因考慮,數(shù)據(jù)合并必須分幾個(gè)階段進(jìn)行:清楚10萬(wàn)條重復(fù)數(shù)據(jù)需要占用很多CPU事件,以及你是思考時(shí)間。不要急于進(jìn)行合并操作,因?yàn)橐坏┖喜?,就無法撤銷。