重復(fù)數(shù)據(jù)刪除技術(shù)是一個(gè)將輸入數(shù)據(jù)流與之前保存在系統(tǒng)中的數(shù)據(jù)進(jìn)行比較、找出冗余的子文件信息、只保存一個(gè)版本的文件信息的流程。在備份過(guò)程中這項(xiàng)技術(shù)非常有價(jià)值,因?yàn)榇蠖鄶?shù)的數(shù)據(jù)都是相同的,尤其是從完全備份到完全備份。
重復(fù)數(shù)據(jù)刪除技術(shù)的發(fā)生時(shí)間有三種:inline、post-processing以及兩者的結(jié)合體。
如果一款產(chǎn)品是inline重復(fù)數(shù)據(jù)刪除技術(shù)產(chǎn)品,這就是說(shuō)在應(yīng)用接收數(shù)據(jù)的時(shí)候,如果冗余數(shù)據(jù)是相同的,那么就創(chuàng)建一個(gè)指針,只有唯一的數(shù)據(jù)被寫(xiě)入磁盤(pán)——重復(fù)數(shù)據(jù)永遠(yuǎn)不會(huì)被寫(xiě)入到磁盤(pán)中。Post-processing是指所有數(shù)據(jù)以最初的格式第一次被寫(xiě)入到磁盤(pán),然后一個(gè)獨(dú)立的、連續(xù)的流程對(duì)這些數(shù)據(jù)進(jìn)行分析,將重復(fù)數(shù)據(jù)刪除掉。一些廠商推出了不同版本的Post-processing重復(fù)數(shù)據(jù)刪除產(chǎn)品,利用緩存來(lái)在整個(gè)本分完成數(shù)據(jù)接收之前啟動(dòng) post-processing流程。
狀態(tài)問(wèn)題
inline系統(tǒng)一個(gè)最大有點(diǎn)就是狀態(tài)的簡(jiǎn)化。你只需要在一種狀態(tài)下處理數(shù)據(jù),無(wú)論怎樣,數(shù)據(jù)總是被重復(fù)數(shù)據(jù)刪除掉的。而post-processing在狀態(tài)方面存在一些缺點(diǎn):你必須在原始或者已經(jīng)被重復(fù)刪除的狀態(tài)下處理數(shù)據(jù)。沒(méi)有足夠的原始空間來(lái)支持備份流程。
廠商已經(jīng)通過(guò)要求用戶管理這兩種備份池或者讓系統(tǒng)來(lái)管理基礎(chǔ)數(shù)據(jù)的方法解決這個(gè)問(wèn)題。不管選擇哪種方法,你都是需要做一些管理工作來(lái)確保有足夠的空間來(lái)支持整個(gè)備份流程的。這并不是說(shuō)inline系統(tǒng)就不能對(duì)糟糕的容量計(jì)劃或者不可預(yù)測(cè)的環(huán)境變更有“免疫功能”。根據(jù)我們的經(jīng)驗(yàn)來(lái)看,用戶管理 inline系統(tǒng)相對(duì)來(lái)說(shuō)更為輕松一些。
性能問(wèn)題
對(duì)inline系統(tǒng)來(lái)說(shuō),性能可以說(shuō)是它的一個(gè)軟肋,因?yàn)槟憧赡苄枰獱奚阅軄?lái)獲得交互的簡(jiǎn)化性。實(shí)時(shí)重復(fù)數(shù)據(jù)刪除技術(shù)需要具有一定的能力,功能不足或者系統(tǒng)效率過(guò)低都有可能使inline系統(tǒng)無(wú)法接收數(shù)據(jù)。而對(duì)于Post-processing系統(tǒng)來(lái)說(shuō),我們就不必?fù)?dān)心重復(fù)數(shù)據(jù)造成的接收性能影響,因?yàn)閜ost-processing不需要在接收數(shù)據(jù)的過(guò)程中對(duì)其進(jìn)行處理。磁盤(pán)或者網(wǎng)絡(luò)I/O限制都可能是造成性能瓶頸的根源。inline系統(tǒng)依賴于處理減速的成本以及能源增加的速度,這就是所謂的摩爾定律。這就導(dǎo)致了inline系統(tǒng)可以接收數(shù)據(jù)的速度持續(xù)增長(zhǎng),現(xiàn)在,一個(gè)中端或者高端的inline 系統(tǒng)每小時(shí)可以處理大約750GB~1TB的數(shù)據(jù)。
備份流程所需的性能是作出重復(fù)數(shù)據(jù)刪除技術(shù)決策一個(gè)關(guān)鍵因素。如果你通過(guò)每小時(shí)傳輸1TB數(shù)據(jù)來(lái)滿足備份窗口的要求,或者如果你的基礎(chǔ)架構(gòu)無(wú)法保持每小時(shí)傳輸1TB數(shù)據(jù)的話,那么inline系統(tǒng)的易用性特點(diǎn)就掩蓋住了post-processing系統(tǒng)尚未實(shí)現(xiàn)的性能水平。
如果它允許你滿足備份窗口的話,就無(wú)法支持多個(gè)這樣的系統(tǒng)。這一點(diǎn)很重要,因?yàn)榈侥壳盀橹箾](méi)有哪個(gè)系統(tǒng)可以在獨(dú)立的應(yīng)用之間支持重復(fù)數(shù)據(jù)刪除技術(shù)流程,不過(guò)我們可以在今年看到這種功能的推出。最后,如果系統(tǒng)具有很高的數(shù)據(jù)冗余率的話,就可以緩解一部分性能上的難題,因?yàn)樵陔S后奇偶的備份處理中越來(lái)越少的數(shù)據(jù)被寫(xiě)入。這里所說(shuō)的越來(lái)越少的寫(xiě)入不僅僅指數(shù)據(jù)實(shí)際寫(xiě)入越來(lái)越少,而且還指需要計(jì)算的RAID校驗(yàn)位也越來(lái)越少。
如果你的基礎(chǔ)架構(gòu)每小時(shí)可以傳輸超過(guò)2TB的數(shù)據(jù),而且你的備份窗口也需要每小時(shí)超過(guò)2TB的數(shù)據(jù)傳輸,那么post-processing系統(tǒng)的速度可能更適用于這種情況。這通常意味著你有大量數(shù)據(jù)組,更可能在系統(tǒng)環(huán)境中依賴于磁帶設(shè)備。
首先確保整個(gè)磁盤(pán)備份解決方案——備份庫(kù)到磁帶數(shù)據(jù)的重復(fù)數(shù)據(jù)刪除技術(shù)——針對(duì)日常備份策略可以維持一定的速度水平。重復(fù)數(shù)據(jù)刪除技術(shù)并不是唯一的瓶頸。此外,如果你依賴于磁帶的話,確保向磁帶的集成操作是滿足你的測(cè)試標(biāo)準(zhǔn)的。如果電子數(shù)據(jù)庫(kù)也要求有一定容量的話,那么也將其納入完整測(cè)試日常備份策略的測(cè)試標(biāo)準(zhǔn)中。
恢復(fù)性能
Post-processing解決方案也具有很好的恢復(fù)性能,因?yàn)閷?shù)據(jù)以原始狀態(tài)保存對(duì)快速恢復(fù)來(lái)說(shuō)非常重要。并非有所的post- processing的處理方式都完全相同。有些是盡可能地確保更多本地?cái)?shù)據(jù)可用,有些則是保存?zhèn)浞萘鞒痰淖钚聰?shù)據(jù)版本。不管怎樣,對(duì)重復(fù)刪除數(shù)據(jù)的恢復(fù)的確是存在一些性能問(wèn)題,但是與備份相同,確保環(huán)境中沒(méi)有其他可能引發(fā)更大問(wèn)題的瓶頸。網(wǎng)絡(luò)、服務(wù)器快速接收數(shù)據(jù)的能力、恢復(fù)流程中所有RAID校驗(yàn)數(shù)據(jù)的重寫(xiě)要求等等,都只說(shuō)明了一個(gè)簡(jiǎn)單的事實(shí),那就是寫(xiě)入要慢于讀取。