重復(fù)數(shù)據(jù)刪除技術(shù)通過使備份到VTL的費(fèi)用大大低于純基于硬盤的數(shù)據(jù)保護(hù)解決方案,改進(jìn)了數(shù)據(jù)保護(hù)的經(jīng)濟(jì)性。
數(shù)據(jù)量正在迅速增加,企業(yè)用戶不僅產(chǎn)生更多的原始數(shù)據(jù),而且政府管理機(jī)構(gòu)還要求他們?cè)跀?shù)據(jù)生命周期中多次備份和保留這些數(shù)據(jù)。如果每周的完整備份數(shù)據(jù)的保留期是1年,每天的遞增備份數(shù)據(jù)的保留期是10天,那么,1TB數(shù)據(jù)在其整個(gè)生命周期中需要53TB的存儲(chǔ)容量來提供數(shù)據(jù)保護(hù)。備份、管理和保存這些數(shù)據(jù)將大大增加勞動(dòng)力成本。
但好消息是硬盤存儲(chǔ)的費(fèi)用在降低,重復(fù)數(shù)據(jù)刪除技術(shù)則可應(yīng)用在基于磁盤的虛擬磁帶庫(VTL)上,通過只備份和保存某段數(shù)據(jù)一次,從而幫助控制數(shù)據(jù)量的增長。
VTL是基于硬盤的系統(tǒng),它模擬磁帶技術(shù)使企業(yè)可以用最小的中斷將它們安裝在已有的環(huán)境中。重復(fù)數(shù)據(jù)刪除軟件(某些VTL提供)保存基線數(shù)據(jù)集合,然后檢查隨后的備份集合,尋找重復(fù)的數(shù)據(jù)。當(dāng)找到重復(fù)數(shù)據(jù)時(shí),它保存很小的數(shù)據(jù)表達(dá)式,這些數(shù)據(jù)表達(dá)式使軟件可以根據(jù)需要匯編和恢復(fù)完整的文件。
目前有兩種主要的重復(fù)數(shù)據(jù)刪除方法:基于散列的方法和基于字節(jié)比較的方法?;谏⒘械姆椒ɡ靡环N算法對(duì)輸入數(shù)據(jù)進(jìn)行處理來創(chuàng)建很小的表達(dá)式和數(shù)據(jù)唯一的標(biāo)識(shí)符(即所謂的散列值)。然后,將其與保存在查尋表中的散列值進(jìn)行比較。但是,利用查尋表來確定重復(fù)的散列串會(huì)造成巨大的性能壓力,并且可能需要幾周時(shí)間才能取得最優(yōu)的重復(fù)刪除效率。
效率更高的方法是在對(duì)象級(jí)上進(jìn)行比較。例如,將Word文檔與另一個(gè)Word文檔進(jìn)行比較,要么采用模式匹配算法;要么采用效率更高的智能分析技術(shù)。智能分析在更詳細(xì)地比較兩個(gè)文件之前會(huì)分析備份文件和參考數(shù)據(jù)集合來確定可能是冗余的文件。由于把處理重點(diǎn)放在可能的重復(fù)數(shù)據(jù)上,它可以更徹底地去除重復(fù)數(shù)據(jù)和避免不必要的處理新文件。
一些技術(shù)在數(shù)據(jù)備份過程中進(jìn)行重復(fù)數(shù)據(jù)刪除。這種在線的重復(fù)數(shù)據(jù)刪除會(huì)降低備份性能,增加備份的復(fù)雜性。另一些技術(shù)執(zhí)行帶外的重復(fù)數(shù)據(jù)刪除,在執(zhí)行時(shí),它們首先備份數(shù)據(jù),然后再執(zhí)行重復(fù)數(shù)據(jù)刪除。
字節(jié)級(jí)重復(fù)數(shù)據(jù)刪除可提供高達(dá)25:1數(shù)據(jù)壓縮率。當(dāng)與典型的VTL特性,即壓縮技術(shù)配合使用時(shí),企業(yè)無須增加存儲(chǔ)容量就可在同樣的空間中多保存50倍的數(shù)據(jù)。這種壓縮技術(shù)不僅使用戶可以在線保存更多的數(shù)據(jù),并使數(shù)據(jù)保持更長的在線時(shí)間,還帶來了將數(shù)據(jù)保存在硬盤上的優(yōu)勢(shì)。例如,把數(shù)據(jù)保存在硬盤上比保存在磁帶上占用更少的物理空間,并大大減少電源、冷卻、安全和其他運(yùn)營與基礎(chǔ)設(shè)施費(fèi)用。據(jù)最近的一份Gartner報(bào)告說,到2008年,50%的數(shù)據(jù)中心將缺少滿足高密度設(shè)備需要的電源和冷卻容量。
重復(fù)數(shù)據(jù)刪除技術(shù)通過使備份到VTL的費(fèi)用大大低于純基于硬盤的數(shù)據(jù)保護(hù)解決方案,改進(jìn)了數(shù)據(jù)保護(hù)的經(jīng)濟(jì)性。同時(shí),它也是數(shù)據(jù)中心應(yīng)對(duì)急劇增加的能源、勞動(dòng)力和空間費(fèi)用,以及管理即將出現(xiàn)的電源和冷卻容量短缺的重要的途徑。