這篇文章基于現(xiàn)有的SNIA材料,描述了重復(fù)數(shù)據(jù)刪除流程可以進(jìn)行的幾個(gè)不同的地方;探討了壓縮與單實(shí)例文件以及重復(fù)數(shù)據(jù)刪除之間的不同點(diǎn);研究了次文件層重復(fù)數(shù)據(jù)刪除執(zhí)行的幾個(gè)不同方式。它同時(shí)還解釋了哪種類(lèi)型的數(shù)據(jù)適合重復(fù)數(shù)據(jù)刪除,以及哪些不適合。
介紹
重復(fù)數(shù)據(jù)刪除已經(jīng)成為存儲(chǔ)行業(yè)非常熱門(mén)的話(huà)題和一大類(lèi)商業(yè)產(chǎn)品。這是因?yàn)橹貜?fù)數(shù)據(jù)刪除可以大幅減少購(gòu)置和運(yùn)行成本,同時(shí)提高存儲(chǔ)效率。隨著數(shù)據(jù)量的爆炸性增長(zhǎng),接近一半的數(shù)據(jù)中心管理員都將數(shù)據(jù)增長(zhǎng)評(píng)為三大挑戰(zhàn)之一。根據(jù)最近的Gartner調(diào)查結(jié)果,重復(fù)數(shù)據(jù)刪除可以減輕存儲(chǔ)預(yù)算的壓力并幫助存儲(chǔ)管理員應(yīng)對(duì)數(shù)據(jù)的增長(zhǎng)。
雖然重復(fù)數(shù)據(jù)刪除主要被視為一種容量?jī)?yōu)化技術(shù),不過(guò)該技術(shù)也可以帶來(lái)性能上的好處--隨著所需存儲(chǔ)的數(shù)據(jù)的減少,系統(tǒng)所需遷移的數(shù)據(jù)也減少。
重復(fù)數(shù)據(jù)刪除技術(shù)可以應(yīng)用在數(shù)據(jù)生命周期上的不同點(diǎn)上:從來(lái)源端重復(fù)數(shù)據(jù)刪除,到傳輸中重復(fù)數(shù)據(jù)刪除,一直到存儲(chǔ)目標(biāo)端重復(fù)數(shù)據(jù)刪除。這些技術(shù)還可以應(yīng)用在所有的存儲(chǔ)層上:備份、歸檔和主存儲(chǔ)。
重復(fù)數(shù)據(jù)刪除的解釋
無(wú)論使用哪種方式,重復(fù)數(shù)據(jù)刪除就是一個(gè)在不同層次的粒度性上識(shí)別重復(fù)數(shù)據(jù)并將重復(fù)數(shù)據(jù)替代為指向共享復(fù)件的指針的過(guò)程,這樣可以節(jié)約存儲(chǔ)空間和遷移數(shù)據(jù)所需的帶寬。
重復(fù)數(shù)據(jù)刪除流程包括跟蹤并識(shí)別那些被刪除的重復(fù)數(shù)據(jù),以及識(shí)別和存儲(chǔ)那些新的和獨(dú)一無(wú)二的數(shù)據(jù)。數(shù)據(jù)的終端用戶(hù)完全不會(huì)感到這些數(shù)據(jù)可能已經(jīng)被執(zhí)行重復(fù)數(shù)據(jù)刪除流程并已經(jīng)在其數(shù)據(jù)生命周期中被重建許多次。
對(duì)數(shù)據(jù)進(jìn)行重復(fù)數(shù)據(jù)刪除操作有幾種不同的方式。單實(shí)例存儲(chǔ)(SIS)是在文件或塊層次上進(jìn)行重復(fù)數(shù)據(jù)刪除。重復(fù)副本會(huì)被一個(gè)帶著指針的實(shí)例所取代,而指針則指向原始文件或?qū)ο蟆?/P>
次文件層重復(fù)數(shù)據(jù)刪除的操作粒度則比文件或?qū)ο蟾 _@種技術(shù)有兩種常見(jiàn)的方式:固定塊重復(fù)數(shù)據(jù)刪除--數(shù)據(jù)被分解成固定長(zhǎng)度的部分或塊;可變長(zhǎng)度重復(fù)數(shù)據(jù)刪除--數(shù)據(jù)根據(jù)一個(gè)滑行的窗口進(jìn)行重復(fù)數(shù)據(jù)刪除。
數(shù)據(jù)壓縮是對(duì)數(shù)據(jù)進(jìn)行編碼以減小它的大小;它還可以用于那些已經(jīng)被重復(fù)數(shù)據(jù)刪除的數(shù)據(jù)以進(jìn)一步減少存儲(chǔ)消耗。重復(fù)數(shù)據(jù)刪除和數(shù)據(jù)壓縮雖不同但互補(bǔ)--例如,數(shù)據(jù)可能重復(fù)數(shù)據(jù)刪除的效率很高但是壓縮的效率很低。
此外,重復(fù)數(shù)據(jù)刪除數(shù)據(jù)可以在線(xiàn)執(zhí)行;也就是說(shuō),在數(shù)據(jù)被寫(xiě)入目標(biāo)端的時(shí)候進(jìn)行重復(fù)數(shù)據(jù)刪除操作;當(dāng)然,重復(fù)數(shù)據(jù)刪除也可以以后處理的方式執(zhí)行,也就是在數(shù)據(jù)已經(jīng)被寫(xiě)入并存儲(chǔ)在磁盤(pán)上的時(shí)候執(zhí)行。
舉個(gè)一個(gè)簡(jiǎn)化的重復(fù)數(shù)據(jù)刪除例子,我們有兩個(gè)由塊組成的對(duì)象或文件。下圖顯示了這些對(duì)象或文件的情況。對(duì)象或文件可以是可變的或基于窗口的部分、固定塊或文件集合--可以應(yīng)用同樣的原則。在這個(gè)例子中,每個(gè)對(duì)象所包含的塊由字母來(lái)區(qū)分。