重復數(shù)據(jù)刪除技術的產生是有一定的淵源,那就從頭說起,雖然現(xiàn)在存儲介質的價格直線下滑,單位存儲成本已經很低。但是仍然跟不上企業(yè)數(shù)據(jù)文件增長的速度。隨之而來的,能源消耗、數(shù)據(jù)備份管理等等也都成了老大難問題。而且一些重復的文件也隨著增多了。為此企業(yè)現(xiàn)在迫切需要一門技術,能夠確保在存儲設備中存儲的是獨一無二的文件。在這種背景下,重復數(shù)據(jù)刪除技術就應運而生啦。重復數(shù)據(jù)刪除技術的目的很簡單,就是確保存儲的文件不重復,從而減少數(shù)據(jù)容量。不過在實際工作中,由于種種原因用戶對這個技術還存在著一些誤解。消除這些誤區(qū),對于大家正確使用重復數(shù)據(jù)刪除技術很關鍵。
誤區(qū)一:后期處理重復數(shù)據(jù)刪除技術的工作時機。
重復數(shù)據(jù)刪除技術根據(jù)其實現(xiàn)的方式可以分為“聯(lián)機重復數(shù)據(jù)刪除技術”和“后期處理重復數(shù)據(jù)刪除技術”。兩個技術各有各的特點。不過由于“后期處理重復數(shù)據(jù)刪除技術”這個名字起得有點其一,所以不少用戶對此存在著誤解。如一些人會誤認為后期處理重復數(shù)據(jù)刪除方式是當所有數(shù)據(jù)備份過程結束后才進行驗證、刪除操作的。如果大家這么認為,那么就是大錯特錯了。
其實后期處理重復數(shù)據(jù)刪除技術通常是在虛擬的磁帶介質寫入備份數(shù)據(jù)后就開始進行工作了。也就是說實在等待虛擬磁帶寫滿之后就開始。當然這中間根據(jù)需要有一定的延遲。如存儲管理員可以根據(jù)不同的情況對這個延遲進行設置??梢灾谎舆t短短的幾分鐘,也可以延遲幾個小時。延遲時間具體為多少,主要還是根據(jù)企業(yè)的實際情況來選擇。如有些管理員可能會將這個作業(yè)放在服務器比較空閑的時候進行,此時就會把這個延遲設置的比較長一點,如等到下班后進行等等。
這里需要注意的是一般情況下,為了提高數(shù)據(jù)備份的效率,會對數(shù)據(jù)備份進行分組管理。此時等待時間是從第一組備份任務傳送備份數(shù)據(jù)流開始算起。當?shù)谝槐P虛擬的備份磁帶寫滿或者第一組備份數(shù)據(jù)寫入結束后,重復數(shù)據(jù)刪除處理就不存在延遲等待問題。這主要是因為當系統(tǒng)在進行前一組寫入備份數(shù)據(jù)進行重復數(shù)據(jù)刪除處理時,被分系統(tǒng)可以繼續(xù)往后續(xù)虛擬磁帶介質中寫入第二組的備份數(shù)據(jù)。簡單的說,就是重復數(shù)據(jù)處理作業(yè)與備份數(shù)據(jù)的寫入作業(yè)可以獨立運行。從而提高數(shù)據(jù)處理的效率。
誤區(qū)二:后期處理重復數(shù)據(jù)刪除方式會降低整體備份的效率。
如果光從技術上看,這個結論是成立的。一方面重復刪除方式會占用服務器的資源。另一方面,重復刪除方式存在著一定的延遲。但是這是一個比較孤立的觀點。因為根據(jù)現(xiàn)在的重復數(shù)據(jù)刪除技術,完全可以通過合理的配置來消除這種負面影響。
在實際工作中,如果技術人員發(fā)現(xiàn)后期處理重復數(shù)據(jù)刪除技術降低了數(shù)據(jù)備份的效率,那么可以通過如下幾種方式來消除這個不利影響。一是可以將重復數(shù)據(jù)刪除技術分配到多個單獨的服務器上來分擔服務器的壓力。一般情況下在對已寫入的備份數(shù)據(jù)進行重復數(shù)據(jù)刪除時,不同的處理引擎往往會訪問同一磁盤陣列。不過現(xiàn)在的技術可以使得他們訪問同一磁盤陣列的不同區(qū)域。換句話說,就是可以實現(xiàn)高速的并發(fā)處理。這樣的話,就不會和持續(xù)寫入的備份數(shù)據(jù)流產生任何的沖突,從而不會影響數(shù)據(jù)備份的效率。二是可以適當調整數(shù)據(jù)延遲的時間。如可以縮短延遲時間,或者適當延長延遲時間避開數(shù)據(jù)備份的高峰時間等等。
總之,后期處理重復數(shù)據(jù)刪除技術在一定程度上確實會影響到數(shù)據(jù)備份的整體效率。但是通過合理的配置,可以將這個負面影響降低到最低的程度。至少與其優(yōu)勢相比,這個負面影響是可以忽略不計的。
誤區(qū)三:降低備份數(shù)據(jù)流的讀取速度不利于數(shù)據(jù)備份。
從技術上說,在同等條件下采取重復刪除技術,肯定會在一定程度上降低備份數(shù)據(jù)流的讀取速度。但是存儲管理員需要明白一點,評價一個技術是否合適,并不能夠只看一個指標,而應該從總體上去評價。簡單的說,需要評價一下總體的備份時間是否有所縮
另外值得一提的是,如果采取重復數(shù)據(jù)刪除技術的話,一般要求相關設備要有比較高的配置或者性能。因為從數(shù)據(jù)備份的任務來看,其實包括兩個部分,分別為數(shù)據(jù)的傳統(tǒng)備份與重復數(shù)據(jù)刪除作業(yè)。雖然說這兩個作業(yè)可以獨立運行,但是其運行所需要的時間是不同的。而只有黨重復數(shù)據(jù)刪除處理結束之后,整個備份作業(yè)才算真正完成。故如果后期處理重復數(shù)據(jù)刪除設備的性能比較差時,就會降低系統(tǒng)的重復數(shù)據(jù)刪除比。故筆者在部署這個項目的時候,往往會對重復數(shù)據(jù)刪除設備進行評估與測試,看其性能上是否能夠滿足要求。