重復(fù)數(shù)據(jù)刪除(Data deduplication)無(wú)疑是存儲(chǔ)行業(yè)近年來(lái)最熱鬧的技術(shù),它消除了傳統(tǒng)備份技術(shù)衍生出的重復(fù)存儲(chǔ)數(shù)據(jù)問(wèn)題,進(jìn)而為企業(yè)節(jié)省成本。然而,今日的企業(yè)面臨的數(shù)據(jù)保護(hù)問(wèn)題相當(dāng)復(fù)雜,備份數(shù)據(jù)重復(fù)儲(chǔ)存的問(wèn)題僅僅是冰山一角,但在某些重復(fù)數(shù)據(jù)刪除廠商的華麗包裝下,這一技術(shù)成了解決所有數(shù)據(jù)保護(hù)問(wèn)題的“萬(wàn)能藥”,導(dǎo)致用戶對(duì)重復(fù)數(shù)據(jù)刪除產(chǎn)品過(guò)多的期望,在對(duì)技術(shù)本身了解不夠、欠缺全盤考慮的情況下便貿(mào)然部署了重復(fù)數(shù)據(jù)刪除方案,結(jié)果卻往往不如預(yù)期,甚至付出比省下的磁盤還要高的成本,因小失大、得不償失。
不要掉入重復(fù)刪除比率的迷局
幾乎所有重復(fù)數(shù)據(jù)刪除產(chǎn)品廠商都會(huì)強(qiáng)調(diào)自己可以達(dá)到多高的重復(fù)數(shù)據(jù)刪除比率,有些甚至宣稱可以達(dá)到500:1這樣不可思議的數(shù)據(jù)。事實(shí)上,重復(fù)數(shù)據(jù)刪除比率完全取決于數(shù)據(jù)的類型和備份策略,跟技術(shù)本身的關(guān)聯(lián)并不大。舉例來(lái)說(shuō),如果數(shù)據(jù)的類型為Office文件、電子郵件,由于數(shù)據(jù)結(jié)構(gòu)本身的重復(fù)性高,能被刪除的部分自然就比較多,如果是已經(jīng)壓縮過(guò)的影音、圖片等文件,重復(fù)數(shù)據(jù)刪除的效果就相當(dāng)有限;采用全備份的重復(fù)數(shù)據(jù)刪除比率,也遠(yuǎn)大于增量或差量備份,因此,比較不同產(chǎn)品之間的重復(fù)數(shù)據(jù)刪除比率其實(shí)是沒(méi)有意義的,更不能借些來(lái)判別產(chǎn)品的優(yōu)劣。
不能影響服務(wù)器性能
某些采用資源端重復(fù)數(shù)據(jù)刪除技術(shù)的解決方案,必須在生產(chǎn)服務(wù)器上安裝代理程序來(lái)執(zhí)行重復(fù)數(shù)據(jù)刪除,無(wú)可避免的給生產(chǎn)服務(wù)器造成了相當(dāng)大的性能負(fù)擔(dān)。任何改變傳統(tǒng)的數(shù)據(jù)保護(hù)方式,都必須建立在不影響系統(tǒng)運(yùn)行的前提下才能被接受,換句話說(shuō),服務(wù)器的性能絕不能受到數(shù)據(jù)保護(hù)方案的牽制(無(wú)論是應(yīng)用服務(wù)器還是,因此在這個(gè)前提下,目標(biāo)端重復(fù)數(shù)據(jù)刪除技術(shù)才是最理想的選擇。以飛康最新推出的FDS為例,只對(duì)備份到FDS內(nèi)的數(shù)據(jù)進(jìn)行分析比對(duì),然后再刪除重復(fù)數(shù)據(jù),前端服務(wù)器不需要安裝代理程序,所有運(yùn)行負(fù)載也都集中在FDS上,重復(fù)數(shù)據(jù)刪除工作對(duì)生產(chǎn)服務(wù)器的性能毫無(wú)影響。
在線處理不一定比后處理好
重復(fù)數(shù)據(jù)刪除技術(shù)依據(jù)數(shù)據(jù)處理方式的不同,分成備份與重復(fù)數(shù)據(jù)刪除同時(shí)執(zhí)行的在線處理(Inline),以及備份完成后執(zhí)行重復(fù)數(shù)據(jù)刪除的后處理(Post processing)兩種,有些廠商宣稱在線處理才是最先進(jìn)的技術(shù),這其實(shí)是錯(cuò)誤的觀念。
事實(shí)上無(wú)論采用哪種數(shù)據(jù)處理方式,絕大多數(shù)重復(fù)數(shù)據(jù)刪除技術(shù)都是基于業(yè)界標(biāo)準(zhǔn)的哈希算法(Hash),僅有少數(shù)采用自主開(kāi)發(fā)的專利技術(shù),其運(yùn)行方式也都大同小異:追蹤核對(duì)數(shù)據(jù)區(qū)塊,當(dāng)新數(shù)據(jù)寫(xiě)入硬盤前先經(jīng)由系統(tǒng)的掃描與核對(duì),判定硬盤上是否存有相同的副本,如果有的話,這部分?jǐn)?shù)據(jù)將只存入一個(gè)指向該副本地址的指針,不會(huì)重復(fù)儲(chǔ)存,進(jìn)而達(dá)到節(jié)省磁盤空間的目的。兩者的差異在于,在線處理運(yùn)用了大量的內(nèi)存作為數(shù)據(jù)寫(xiě)入硬盤前的緩存空間,后處理則是先將備份數(shù)據(jù)寫(xiě)入硬盤后,再進(jìn)行分析比對(duì),然后刪除重復(fù)數(shù)據(jù)。
乍看之下,在線處理似乎是效率比較高,但是,有兩個(gè)問(wèn)題不可忽視:
1. 數(shù)據(jù)處理速度慢:在線處理在備份資料寫(xiě)入前,必須先暫時(shí)存在內(nèi)存中執(zhí)行內(nèi)容比對(duì)與刪除演算等工作,這些動(dòng)作會(huì)消耗大量CPU資源,亦會(huì)不可避免的拖慢備份速度,某些產(chǎn)品的備份性能甚至比磁帶機(jī)還差,這樣很容易導(dǎo)致備份窗口不足,能在要求時(shí)限內(nèi)完成備份的數(shù)據(jù)量也相對(duì)變少。
2. 可靠性令人擔(dān)心:在線處理方式由于是在數(shù)據(jù)寫(xiě)入磁盤的同時(shí)進(jìn)行比對(duì)、刪除重復(fù)數(shù)據(jù)、保留文件指針,沒(méi)有校驗(yàn)、核對(duì)的機(jī)制,也就是說(shuō),沒(méi)有廠商敢保證文件經(jīng)過(guò)重復(fù)數(shù)據(jù)刪除后,恢復(fù)時(shí)的數(shù)據(jù)是100%正確無(wú)誤的,萬(wàn)一數(shù)據(jù)處理的某個(gè)環(huán)節(jié)出現(xiàn)錯(cuò)誤,系統(tǒng)內(nèi)儲(chǔ)存的備份數(shù)據(jù)就只是一堆無(wú)法識(shí)別的代碼,不得不令人擔(dān)心其可靠性問(wèn)題。
相比之下,后處理方式的重復(fù)數(shù)據(jù)刪除技術(shù)就不用擔(dān)心性能和可靠性的問(wèn)題了。還是以飛康FDS為例,由于備份數(shù)據(jù)傳輸過(guò)程不受重復(fù)數(shù)據(jù)刪除運(yùn)行程序的干擾,能充分發(fā)揮高速磁盤的I/O處理能力,如果搭配備份服務(wù)器的Hosted backup主機(jī)式備份功能,還能運(yùn)用服務(wù)器內(nèi)部的高速鏈路取代速度較慢的以太網(wǎng),消除備份服務(wù)器到存儲(chǔ)系統(tǒng)間的傳輸瓶頸,進(jìn)一步提升備份的性能。在可靠性方面,F(xiàn)DS即將推出的一致性校驗(yàn)功能(Self integrity check),可在備份數(shù)據(jù)寫(xiě)入磁盤并執(zhí)行重復(fù)數(shù)據(jù)刪除后,進(jìn)行文件指針與單一存儲(chǔ)區(qū)塊比對(duì)的工作,如果發(fā)現(xiàn)有任何錯(cuò)誤便會(huì)自動(dòng)修復(fù),確保所有處理過(guò)的備份資料都能正確恢復(fù),系統(tǒng)可靠性與數(shù)據(jù)安全性更有保障。