重復(fù)數(shù)據(jù)刪除技術(shù)極大地提高了基于磁盤數(shù)據(jù)保護(hù)的價(jià)值,也極大地改進(jìn)了基于廣域網(wǎng)的遠(yuǎn)程和分支辦公室備份整合和災(zāi)難恢復(fù)策略。該技術(shù)標(biāo)識(shí)出重復(fù)數(shù)據(jù),消除冗余,從而減少了傳輸和存儲(chǔ)的數(shù)據(jù)量。
有些重復(fù)數(shù)據(jù)刪除技術(shù)在文件級(jí)進(jìn)行操作,其余的更深入地在子文件,或者塊級(jí)別檢查數(shù)據(jù)。毋庸置疑的是,在文件級(jí)或塊級(jí)別上尋找唯一性數(shù)據(jù)都將帶來益處,但結(jié)果將不盡相同。區(qū)別在于每種方法在消除重復(fù)數(shù)據(jù)的數(shù)量和它們?cè)趯ふ椅ㄒ粩?shù)據(jù)上所花費(fèi)的時(shí)間。
文件級(jí)的重復(fù)數(shù)據(jù)刪除
雖然通常被稱作單實(shí)例存儲(chǔ)(SIS),文件級(jí)的重復(fù)數(shù)據(jù)刪除技術(shù)通過將文件的屬性作為索引,對(duì)比將要備份或存檔的文件與已經(jīng)存在的文件。如果這個(gè)文件是唯一的,它將被存儲(chǔ)起來并更新它的索引;如果已經(jīng)存在,僅有一個(gè)指向已有文件的指針被存儲(chǔ)。結(jié)果是,只有一個(gè)文件實(shí)例被保存,而隨后的副本都由一個(gè)指向?qū)嶋H文件的標(biāo)簽所替代。
塊級(jí)別的重復(fù)數(shù)據(jù)刪除
塊級(jí)別的重復(fù)數(shù)據(jù)刪除是在子文件級(jí)別進(jìn)行操作。正如其名,文件被拆分為片段——數(shù)據(jù)塊或數(shù)據(jù)片,對(duì)這些文件塊進(jìn)行冗余檢查,將其與已經(jīng)存在的信息進(jìn)行比對(duì)。
確定冗余數(shù)據(jù)最常用的方式是使用哈希等算法為數(shù)據(jù)指定一個(gè)唯一標(biāo)識(shí),生成一個(gè)唯一ID或數(shù)據(jù)塊的“指紋”。將這個(gè)唯一的標(biāo)識(shí)與一個(gè)中央索引服務(wù)上的標(biāo)識(shí)進(jìn)行對(duì)比。如果ID已經(jīng)存在,說明對(duì)應(yīng)的數(shù)據(jù)塊已經(jīng)被處理過并已經(jīng)存儲(chǔ)。因此,只需要保存一個(gè)指向先前已存儲(chǔ)數(shù)據(jù)的指針。如果這個(gè)ID沒有重復(fù),那么這個(gè)數(shù)據(jù)塊是唯一的。將該ID加到中央索引中,并存儲(chǔ)這唯一的數(shù)據(jù)塊。
每個(gè)供應(yīng)商檢查的數(shù)據(jù)塊的大小各不相同。有的檢查固定大小的塊,而有的檢查可變大小的塊(甚至使其變得更混亂,極少的供應(yīng)商允許終端用戶改變檢查塊的大小)。固定塊的大小可以在8KB到64KB之間,大小不同的區(qū)別在于,塊越小,越有可能被標(biāo)識(shí)為冗余。這也意味著,能夠更大的冗余消除和更少的數(shù)據(jù)存儲(chǔ)。檢查固定大小塊的唯一問題在于,如果一個(gè)文件被修改,而刪除數(shù)據(jù)冗余產(chǎn)品使用與上一次檢查相同的固定大小塊,就有可能發(fā)現(xiàn)不了重復(fù)片段,因?yàn)楫?dāng)文件中的數(shù)據(jù)塊被改變或移動(dòng)時(shí),他們會(huì)改變下文,抵消了其他地方的比較。
在文件被修改后,可變大小的塊增加了重復(fù)數(shù)據(jù)被檢測(cè)出的幾率。這種方法發(fā)現(xiàn)文件中可能發(fā)生的自然模式或斷點(diǎn),然后將數(shù)據(jù)分成響應(yīng)的片段。甚至當(dāng)文件發(fā)生變化引起數(shù)據(jù)塊也發(fā)生改變時(shí),這種方法更有可能找出重復(fù)數(shù)據(jù)片段。如何權(quán)衡?可變長(zhǎng)的這種方法可能需要供應(yīng)商對(duì)一個(gè)數(shù)據(jù)片段的唯一ID進(jìn)行多次跟蹤和比較多次,這將會(huì)導(dǎo)致索引量和計(jì)算時(shí)間的增加。
兩種方式各自的優(yōu)缺點(diǎn)
文件級(jí)和塊級(jí)別的重復(fù)數(shù)據(jù)刪除技術(shù)的區(qū)別僅僅在于他們的實(shí)現(xiàn)方式。下面給出了兩種方式各自的優(yōu)缺點(diǎn)。
文件級(jí)的方法比塊級(jí)別的重復(fù)數(shù)據(jù)刪除方法效率低:
文件中的任何改變都將引起整個(gè)文件的重新保存。一個(gè)文件,如PowerPoint演示文件,可能會(huì)進(jìn)行一些如標(biāo)題頁變換這樣簡(jiǎn)單的修改,以反映新的報(bào)告人或數(shù)據(jù),這將引起整個(gè)文件再一次保存。塊級(jí)別的重復(fù)數(shù)據(jù)檢查可以只保存新版本相對(duì)于舊版本進(jìn)行了修改的數(shù)據(jù)塊。
文件級(jí)的重復(fù)數(shù)據(jù)比例可能是5:1或者不到,而塊級(jí)別的重復(fù)數(shù)據(jù)刪除已被證實(shí)為20:1到50:1。
文件級(jí)的數(shù)據(jù)重復(fù)檢查方法比塊級(jí)別的數(shù)據(jù)重復(fù)檢查更高效:
文件級(jí)重復(fù)數(shù)據(jù)刪除的索引明顯比塊級(jí)別方法的索引要少,這樣,在數(shù)據(jù)重復(fù)確定時(shí)所需要耗費(fèi)的計(jì)算時(shí)間更少。備份功能也因此在重復(fù)數(shù)據(jù)刪除過程中受到更小的影響。
文件級(jí)的處理需要更少的處理過程,因?yàn)樗乃饕龜?shù)更少,而且數(shù)據(jù)比較次數(shù)也更少。因此,對(duì)系統(tǒng)執(zhí)行檢查以及恢復(fù)時(shí)間的影響也更少。塊級(jí)別的重復(fù)數(shù)據(jù)刪除將需要基于主索引進(jìn)行數(shù)據(jù)塊“重組”,主索引標(biāo)識(shí)了唯一數(shù)據(jù)片段和指向該數(shù)據(jù)片段的指針。由于文件級(jí)的重復(fù)數(shù)據(jù)刪除存儲(chǔ)的是唯一的文件和指向已存在的唯一文件的指針,這種方法很少需要重組。