重復(fù)數(shù)據(jù)刪除技術(shù)大大提升了基于磁盤的數(shù)據(jù)保護策略、基于WAN的遠程分公司備份整合策略、以及災(zāi)難恢復(fù)策略的價值主張。這種技術(shù)能識別重復(fù)數(shù)據(jù),消除冗余,減少需轉(zhuǎn)移和存儲的數(shù)據(jù)的總體容量。
一些重復(fù)數(shù)據(jù)刪除技術(shù)在文件級別上運行,另一些則更加深入地檢查子文件或數(shù)據(jù)塊。盡管結(jié)果存在差異,但判斷文件或塊是否唯一都能帶來好處。兩者的差異在于減少的數(shù)據(jù)容量不同,判斷重復(fù)數(shù)據(jù)所需的時間不同。
文件級重復(fù)數(shù)據(jù)刪除技術(shù)
文件級重復(fù)數(shù)據(jù)刪除技術(shù)通常也稱為單實例存儲(SIS),根據(jù)索引檢查需要備份或歸檔的文件的屬性,并與已存儲的文件進行比較。如果沒有相同文件,就將其存儲,并更新索引;否則,僅存入指針,指向已存在的文件。因此,同一文件只保存了一個實例,隨后的副本都以“存根”替代,而“存根”指向原始文件。
塊級重復(fù)數(shù)據(jù)刪除技術(shù)
塊級重復(fù)數(shù)據(jù)刪除技術(shù)在子文件的級別上運行。正如其名所示,文件通常被分割成幾部分——條帶或塊,并將這些部分與之前存儲的信息予以比較,檢查是否存在冗余。
最常見的檢查重復(fù)數(shù)據(jù)的方法是:為數(shù)據(jù)塊指定標識符,例如,利用散列算法產(chǎn)生唯一的ID或“足跡”,標識數(shù)據(jù)塊。然后,將產(chǎn)生的ID與集中索引對比。如果ID已經(jīng)存在,就說明以前曾處理并存儲該數(shù)據(jù)塊。因此,只需存入指針,指向之前存儲的數(shù)據(jù)。如果ID不存在,就說明數(shù)據(jù)塊獨一無二。此時,將ID添加到索引中,將數(shù)據(jù)塊存儲到磁盤中。
每個供應(yīng)商檢查的數(shù)據(jù)塊大小各不相同。一些供應(yīng)商固定數(shù)據(jù)塊的大小,一些則使用不同大小的塊(有一些甚至允許終端用戶改變固定塊的大小,這會令人更加困惑)。固定塊的大小可能為8 KB或64 KB,區(qū)別在于塊越小,被判定為冗余的幾率越大。這也就意味著消除的冗余更多,存儲的數(shù)據(jù)更少。固定塊只存在一個問題:如果文件發(fā)生變化,而重復(fù)數(shù)據(jù)刪除產(chǎn)品依然利用上次檢查到的固定塊,那就可能無法監(jiān)測冗余部分,因為文件中的數(shù)據(jù)塊已被改變或移除,而利用的固定塊仍是變化之前的,剩下的比較就沒有意義了。
各種規(guī)模的塊能夠提高普通冗余的監(jiān)測幾率,尤其是在文件發(fā)生變化以后。這種方法能夠監(jiān)測文件中可能發(fā)生的實樣?;驍帱c,從而分割數(shù)據(jù)。即使文件變化,數(shù)據(jù)塊被轉(zhuǎn)移,這種方法也能發(fā)現(xiàn)重復(fù)的數(shù)據(jù)。不足之處呢?這種方法能改變塊大小,需要供應(yīng)商追蹤并比較多個ID,因此會影響增大規(guī)模、增加計算時間。
文件級技術(shù)和塊級技術(shù)不僅在運行上存在差異。兩種方法各有優(yōu)缺點。
文件級刪除技術(shù)的效率不如塊級技術(shù)的情形:
文件內(nèi)部發(fā)生變化,就會導致整個文件需要重新存儲。PowerPoint報告等文件可能需要改變一些簡單的內(nèi)容,例如改變首頁,以顯示新的報告人或日期,這也會導致整個文檔需要重新存儲。塊級重復(fù)數(shù)據(jù)刪除技術(shù)只存儲文件的某個版本和下個版本之間發(fā)生變化的部分。文件級技術(shù)的壓縮比一般小于5:1,而塊級技術(shù)能將存儲的數(shù)據(jù)容量壓縮20:1甚至50:1。
文件級刪除技術(shù)的效率高于塊級技術(shù)的情形:
文件級重復(fù)數(shù)據(jù)刪除技術(shù)的索引非常小,在判斷重復(fù)數(shù)據(jù)時只需花費很少的計算時間。因此,刪除過程對備份性能的影響很小。由于索引小、比較次數(shù)少,文件級刪除技術(shù)所需的處理負荷較低。對恢復(fù)時間的影響較少。塊級刪除技術(shù)需要利用主索引匹配數(shù)據(jù)塊和該數(shù)據(jù)塊的指針,從而“重新組裝”數(shù)據(jù)塊。而文件級技術(shù)存儲的是獨一無二的文件以及指向該文件的指針,因此很少需要重組。