隨著愛數(shù)備份容災家族百城巡展的腳步,愛數(shù)一體化容災的理念走進了全國的三十多個城市,也獲得了用戶朋友的廣泛認可。那我們就借此契機,更加深入地了解愛數(shù)的一體化容災。上一期我們提到,一體化容災需要同時解決的兩個問題是“數(shù)據(jù)不丟失,應用不間斷”。其中“數(shù)據(jù)不丟失”是基礎,那么“應用不間斷”的目標如何實現(xiàn)呢?
一、 基于 CDP 技術的應用容災
首先,我們來認識一下愛數(shù)備份容災家族的應用容災方案。簡單地說,整個容災方案分為三個部分:生產(chǎn)服務器、容災服務器和基于愛數(shù)容災家族產(chǎn)品成員的容災管理控制臺。這三個部分被“實時復制”和“持續(xù)恢復”兩項關鍵技術緊密地銜接在一起。其中,“實時復制”監(jiān)控生產(chǎn)服務器上用戶所選擇的數(shù)據(jù)源,并源源不斷地將數(shù)據(jù)變化傳輸?shù)綈蹟?shù)第三代引擎所特有的 OFS 介質(zhì)(下文簡稱 OFS)上,并可追溯到任意時間點。為了使容災服務器上的數(shù)據(jù)與生產(chǎn)服務器保持一致,“持續(xù)恢復”O(jiān)FS 上的數(shù)據(jù)變化實時地恢復到容災服務器上。那么如果災難發(fā)生,需要進行應用切換,容災服務器所能恢復的時間點就是應用中斷的那個時刻。如此一來,實現(xiàn)了容災的恢復點目標(RPO)接近于 0。
如果真的發(fā)生了應用故障,容災系統(tǒng)的故障檢測模塊就會首先發(fā)揮作用,它會先嘗試排除各種異常情況并嘗試修復應用。如果應用無法修復,容災服務器就會自動接管生產(chǎn)服務器的應用(用戶也可配置成手工接管,愛數(shù)的管理控制臺會在應用故障時發(fā)出通知)。這時,應用中斷時間為接管所需的時間,可以通過以下方式計算出:
接管時間 = IP 漂移時間 +應用切換時間
(一般情況下 IP 漂移是十分迅速的,應用切換時間根據(jù)應用和數(shù)據(jù)量的大小而有所不同,但總得來說是不會超過分鐘數(shù)量級)
現(xiàn)在,容災系統(tǒng)順利地完成了接管,但這并不意味著容災的結束。接管應用后的容災服務器還在對外提供服務,所產(chǎn)生的數(shù)據(jù)依然需要保護。這時,愛數(shù)應用容災的對象隨著應用切換變成了容災服務器。災難過后,為了讓原生產(chǎn)系統(tǒng)繼續(xù)工作,用戶往往需要修復生產(chǎn)系統(tǒng),應用修復后,愛數(shù)特有的“反向復制”技術,會實時地將容災服務器產(chǎn)生的數(shù)據(jù)通過 OFS 復制回生產(chǎn)服務器上。只要復制完成,再進行一次反向接管即可將應用重新切換到生產(chǎn)服務器上。這時,應用中斷的時間也只相當于一次應用接管的時間??v觀整個容災和應用恢復的過程,應用中斷時間(RTO)僅為兩次接管的時間??梢岳斫鉃橄旅娴谋磉_式:
應用中斷時間 = 接管時間 × 2
反觀傳統(tǒng)的容災方案,在進行接管后恢復生產(chǎn)應用的一系列操作過程中,一般都會為了保證數(shù)據(jù)一致性而要求在數(shù)據(jù)恢復時停止應用。這時,應用中斷時間(RTO)可以表示為:
應用中斷時間 = 數(shù)據(jù)恢復時間 +接管時間 × 2
(一般情況下,數(shù)據(jù)量越大、網(wǎng)絡條件越差則恢復時間越長,恢復時間與數(shù)據(jù)量成正比關系)
由于傳統(tǒng)方案中的數(shù)據(jù)恢復時間會非常大限度地受制于數(shù)據(jù)量的大小和網(wǎng)絡鏈路狀況,所以愛數(shù)應用容災方案大幅降低了應用間斷的時間。
二、 基于級聯(lián)復制的遠程應用容災
除了上述容災方案之外,愛數(shù)備份容災家族還提供了更加安全可靠的遠程級聯(lián)復制容災方案。所謂級聯(lián),就是在不同的地點都部署容災系統(tǒng),利用 OFS 的同步功能,將遠程容災中心和本地數(shù)據(jù)中心的 OFS 數(shù)據(jù)同步起來,這種同步也是實時的,遠程的 OFS 同樣可以恢復到任意時間點。由于異地容災往往是在低速網(wǎng)絡中進行,網(wǎng)絡的抖動會影響容災的效果,為此愛數(shù)還專門提供了支持斷開重連、斷點續(xù)傳等網(wǎng)絡傳輸技術,令遠程的數(shù)據(jù)一致性得到了保證。
用戶也可以在遠程容災中心部署容災服務器,那么就會至少有四份數(shù)據(jù)同時被保存下來。發(fā)生應用故障時,用戶可以選擇使用本地或者異地的容災服務器進行接管。如果本地容災系統(tǒng)癱瘓,可用遠程的 OFS 數(shù)據(jù)進行修復。即使本地數(shù)據(jù)中心發(fā)生極端的災難性事故,出現(xiàn)數(shù)據(jù)中心全部損毀的情況,遠程容災服務器依然可以接管應用、遠程 OFS 依然可以提供任意時間點的數(shù)據(jù)恢復。災難過后,如果需要修復本地數(shù)據(jù)中心的生產(chǎn)系統(tǒng)和容災系統(tǒng),同樣也可以通過遠程 OFS 到本地 OFS、本地 OFS 到本地生產(chǎn)服務器之間的反向復制來進行數(shù)據(jù)恢復,解決了數(shù)據(jù)恢復時間長、遠程數(shù)據(jù)可能不一致的問題,使得應用中斷的時間(RTO)降到最低。