重復數(shù)據(jù)刪除(Data deduplication)無疑是存儲行業(yè)近年來最熱鬧的技術(shù),它消除了傳統(tǒng)備份技術(shù)衍生出的重復存儲數(shù)據(jù)問題,進而為企業(yè)節(jié)省成本。然而,今日的企業(yè)面臨的數(shù)據(jù)保護問題相當復雜,備份數(shù)據(jù)重復儲存的問題僅僅是冰山一角,但在某些重復數(shù)據(jù)刪除廠商的華麗包裝下,這一技術(shù)成了解決所有數(shù)據(jù)保護問題的“萬能藥”,導致用戶對重復數(shù)據(jù)刪除產(chǎn)品過多的期望,在對技術(shù)本身了解不夠、欠缺全盤考慮的情況下便貿(mào)然部署了重復數(shù)據(jù)刪除方案,結(jié)果卻往往不如預(yù)期,甚至付出比省下的磁盤還要高的成本,因小失大、得不償失。
用戶在選擇具備重復數(shù)據(jù)刪除技術(shù)的產(chǎn)品時,如何針對真正需求理性做出判斷,而不被銷售廣告和專業(yè)術(shù)語所迷惑呢?不妨參考以下五項建議:
不要掉入重復刪除比率的迷局
幾乎所有重復數(shù)據(jù)刪除產(chǎn)品廠商都會強調(diào)自己可以達到多高的重復數(shù)據(jù)刪除比率,有些甚至宣稱可以達到500:1這樣不可思議的數(shù)據(jù)。事實上,重復數(shù)據(jù)刪除比率完全取決于數(shù)據(jù)的類型和備份策略,跟技術(shù)本身的關(guān)聯(lián)并不大。舉例來說,如果數(shù)據(jù)的類型為Office文件、電子郵件,由于數(shù)據(jù)結(jié)構(gòu)本身的重復性高,能被刪除的部分自然就比較多,如果是已經(jīng)壓縮過的影音、圖片等文件,重復數(shù)據(jù)刪除的效果就相當有限;采用全備份的重復數(shù)據(jù)刪除比率,也遠大于增量或差量備份,因此,比較不同產(chǎn)品之間的重復數(shù)據(jù)刪除比率其實是沒有意義的,更不能借些來判別產(chǎn)品的優(yōu)劣。
不能影響服務(wù)器性能
某些采用資源端重復數(shù)據(jù)刪除技術(shù)的解決方案,必須在生產(chǎn)服務(wù)器上安裝代理程序來執(zhí)行重復數(shù)據(jù)刪除,無可避免的給生產(chǎn)服務(wù)器造成了相當大的性能負擔。任何改變傳統(tǒng)的數(shù)據(jù)保護方式,都必須建立在不影響系統(tǒng)運行的前提下才能被接受,換句話說,服務(wù)器的性能絕不能受到數(shù)據(jù)保護方案的牽制(無論是應(yīng)用服務(wù)器還是,因此在這個前提下,目標端重復數(shù)據(jù)刪除技術(shù)才是最理想的選擇。以飛康最新推出的FDS為例,只對備份到FDS內(nèi)的數(shù)據(jù)進行分析比對,然后再刪除重復數(shù)據(jù),前端服務(wù)器不需要安裝代理程序,所有運行負載也都集中在FDS上,重復數(shù)據(jù)刪除工作對生產(chǎn)服務(wù)器的性能毫無影響。
在線處理不一定比后處理好
重復數(shù)據(jù)刪除技術(shù)依據(jù)數(shù)據(jù)處理方式的不同,分成備份與重復數(shù)據(jù)刪除同時執(zhí)行的在線處理(Inline),以及備份完成后執(zhí)行重復數(shù)據(jù)刪除的后處理(Post processing)兩種,有些廠商宣稱在線處理才是最先進的技術(shù),這其實是錯誤的觀念。
事實上無論采用哪種數(shù)據(jù)處理方式,絕大多數(shù)重復數(shù)據(jù)刪除技術(shù)都是基于業(yè)界標準的哈希算法(Hash),僅有少數(shù)采用自主開發(fā)的專利技術(shù),其運行方式也都大同小異:追蹤核對數(shù)據(jù)區(qū)塊,當新數(shù)據(jù)寫入硬盤前先經(jīng)由系統(tǒng)的掃描與核對,判定硬盤上是否存有相同的副本,如果有的話,這部分數(shù)據(jù)將只存入一個指向該副本地址的指針,不會重復儲存,進而達到節(jié)省磁盤空間的目的。兩者的差異在于,在線處理運用了大量的內(nèi)存作為數(shù)據(jù)寫入硬盤前的緩存空間,后處理則是先將備份數(shù)據(jù)寫入硬盤后,再進行分析比對,然后刪除重復數(shù)據(jù)。
乍看之下,在線處理似乎是效率比較高,但是,有兩個問題不可忽視:
1. 數(shù)據(jù)處理速度慢:在線處理在備份資料寫入前,必須先暫時存在內(nèi)存中執(zhí)行內(nèi)容比對與刪除演算等工作,這些動作會消耗大量CPU資源,亦會不可避免的拖慢備份速度,某些產(chǎn)品的備份性能甚至比磁帶機還差,這樣很容易導致備份窗口不足,能在要求時限內(nèi)完成備份的數(shù)據(jù)量也相對變少。
2. 可靠性令人擔心:在線處理方式由于是在數(shù)據(jù)寫入磁盤的同時進行比對、刪除重復數(shù)據(jù)、保留文件指針,沒有校驗、核對的機制,也就是說,沒有廠商敢保證文件經(jīng)過重復數(shù)據(jù)刪除后,恢復時的數(shù)據(jù)是100%正確無誤的,萬一數(shù)據(jù)處理的某個環(huán)節(jié)出現(xiàn)錯誤,系統(tǒng)內(nèi)儲存的備份數(shù)據(jù)就只是一堆無法識別的代碼,不得不令人擔心其可靠性問題。
相比之下,后處理方式的重復數(shù)據(jù)刪除技術(shù)就不用擔心性能和可靠性的問題了。還是以飛康FDS為例,由于備份數(shù)據(jù)傳輸過程不受重復數(shù)據(jù)刪除運行程序的干擾,能充分發(fā)揮高速磁盤的I/O處理能力,如果搭配備份服務(wù)器的Hosted backup主機式備份功能,還能運用服務(wù)器內(nèi)部的高速鏈路取代速度較慢的以太網(wǎng),消除備份服務(wù)器到存儲系統(tǒng)間的傳輸瓶頸,進一步提升備份的性能。在可靠性方面,F(xiàn)DS即將推出的一致性校驗功能(Self integrity check),可在備份數(shù)據(jù)寫入磁盤并執(zhí)行重復數(shù)據(jù)刪除后,進行文件指針與單一存儲區(qū)塊比對的工作,如果發(fā)現(xiàn)有任何錯誤便會自動修復,確保所有處理過的備份資料都能正確恢復,系統(tǒng)可靠性與數(shù)據(jù)安全性更有保障。