重復(fù)數(shù)據(jù)刪除技術(shù)并不是什么新鮮的技術(shù),ZFS系統(tǒng)擁有重復(fù)數(shù)據(jù)刪除功能已經(jīng)有一段時(shí)間了,并且這項(xiàng)技術(shù)也可用于Linux平臺(tái)下的Btrfs。同樣值得考慮的是Opendedup,通過SDFS實(shí)現(xiàn)的重復(fù)數(shù)據(jù)刪除功能在Windows和Linux上均可使用。
對(duì)于重復(fù)數(shù)據(jù)刪除技術(shù)理解理解起來非常簡(jiǎn)單,它本身是一項(xiàng)技術(shù),可以允許在您的硬盤驅(qū)動(dòng)器上只存儲(chǔ)一份重復(fù)數(shù)據(jù)。從而節(jié)省了空間和潛在的超速文件寫入。本質(zhì)上說,它是單實(shí)例存儲(chǔ)。重復(fù)數(shù)據(jù)刪除可以在文件級(jí)、塊級(jí)或字節(jié)級(jí)里運(yùn)行并起作用。文件和數(shù)據(jù)塊級(jí)是最常見的。
速度支持
這是可以做到同步(如寫入發(fā)生)或異步的(作為一個(gè)在安靜的時(shí)間預(yù)定作業(yè)。)
同步重復(fù)數(shù)據(jù)刪除需要消耗大量CPU運(yùn)算能力。這么大的能耗使得高端文件服務(wù)器廠商總是吵著要用最快的Xeon處理器,并推動(dòng)與研究利用GPGPU技術(shù)。
這很容易想到原因,試著把一個(gè)5GB的文件壓縮成Zip包所需要的時(shí)間。進(jìn)而再把你的硬盤驅(qū)動(dòng)器想象成一個(gè)0.5PB級(jí)的壓縮包,而你需要10 Gb/s的讀寫速度。突發(fā)事件的處理能力非常重要。
盡管這樣,重復(fù)數(shù)據(jù)刪除技術(shù)仍是一項(xiàng)關(guān)鍵技術(shù)。存儲(chǔ)的需求不僅僅體現(xiàn)在對(duì)容量的需求迫切。更重要的是,當(dāng)硬盤的容量增加了兩倍的時(shí)候,網(wǎng)絡(luò)I / O和磁盤速度并沒有提高。
這對(duì)于Raid重建時(shí)間和備份來說是存在巨大的潛在的災(zāi)難性。重復(fù)數(shù)據(jù)刪除可以減少信息RAID或備份的數(shù)量,從而幫助以確保這些過程都發(fā)生在與業(yè)務(wù)需求相兼容的時(shí)限內(nèi)。
高風(fēng)險(xiǎn)業(yè)務(wù)
這是假設(shè)你正在備份,重復(fù)數(shù)據(jù)刪除技術(shù)會(huì)對(duì)完整的文件在數(shù)據(jù)塊級(jí)別進(jìn)行刪除,并對(duì)這個(gè)事件的利弊都充分考慮一下吧。
只對(duì)重刪技術(shù)處理過的數(shù)據(jù)塊進(jìn)行備份,這就意味著更小的備份空間、更少的帶寬,并且已備份的數(shù)據(jù)將不會(huì)再進(jìn)行重復(fù)備份。但在另一方面,其明顯減緩了恢復(fù)時(shí)間,并與整個(gè)備份介質(zhì)聯(lián)系在一起,不可分割。
大多數(shù)人不會(huì)對(duì)進(jìn)行重刪之后刪除的數(shù)據(jù)塊進(jìn)行備份,這對(duì)企業(yè)來說,存在很大的風(fēng)險(xiǎn)。備份介質(zhì)出現(xiàn)一絲毫的損壞,那么整個(gè)備份介質(zhì)上的數(shù)據(jù)都無法恢復(fù)。這就意味著企業(yè)需要很多的預(yù)算來保證帶寬以每天都對(duì)未進(jìn)行重刪的數(shù)據(jù)進(jìn)行備份。
同時(shí),你還必須考慮對(duì)未進(jìn)行重刪的數(shù)據(jù)進(jìn)行備份所需要的存儲(chǔ)I/O帶寬,而不是存儲(chǔ)在磁盤上所需的容量大小。磁盤上的數(shù)據(jù)量每天可能只增加了幾十GB,而總存儲(chǔ)I/O則迫使存儲(chǔ)系統(tǒng)需要用幾十TB的增加。
注意跨度
隨著存儲(chǔ)需求和供應(yīng)之間的差距越來越大,重復(fù)數(shù)據(jù)刪除技術(shù)將變得日益重要。但這并不會(huì)減少對(duì)網(wǎng)絡(luò)帶寬的需求,并還增加了額外的運(yùn)算能力需求。
我所期望的文件管理器,需要有兩個(gè)高端的Xeon處理器和萬兆以太網(wǎng),并需要兩個(gè)萬兆以太網(wǎng)端口,以為提供MPIO(多路徑IO管理)。
文件管理器大小取決于其必須具備滿足峰值需求的能力,必須支持快照、之前版本和其他一些有趣的功能,對(duì)于下一代存儲(chǔ)所需要什么樣的性能時(shí),很頭疼。但無論困難與否,必須花時(shí)間來研究。存儲(chǔ)的成本和隨之而來的網(wǎng)絡(luò)帶寬成本將會(huì)越來越高,我們當(dāng)中很少有人能承擔(dān)其突發(fā)錯(cuò)誤后的代價(jià)。