對于災難恢復計劃首要的是風險評估,但是理解如果不理解風險的影響,單單只是明白風險本身,這也沒什么意義。想要發(fā)展一個IT災難恢復計劃,在考慮如何構成最高效的恢復策略時,兩個重要的問題需謹記于心。
1、哪些災難恢復方案在我們的IT環(huán)境中切實可行?
2、已有的方案如何影響現(xiàn)有IT環(huán)境支撐的業(yè)務?
這些問題能夠反映評估IT環(huán)境風險和判斷風險結(jié)果需要什么因素,還能體現(xiàn)它對組織的效果。
風險到底是什么?
從IT的角度我們可以用多種方法定義什么構成了風險?最普及的觀點是“暴露在了已知的威脅存在中,有發(fā)生的可能。”如果我們想好好把工作完成,就不要把專業(yè)術語掛在嘴邊,而是簡潔地解釋好。比如說,危險暴露可能是因為冗余服務器硬件缺乏,威脅就是經(jīng)常會硬件故障,就這就構成了一個風險。
評價風險
在災難恢復過程應該很早就查處風險,同樣重要的一點是:不要再風險發(fā)現(xiàn)了才做災難恢復策略。
檢查硬盤故障很簡單,但是作為風險來說就不算事兒,因為有數(shù)據(jù)備份,磁盤故障可以很快解決。真理是風險存在,但是控制手段要就位,以便減少影響。
最佳實踐是先評估每個風險,分析其對業(yè)務的影響,然后評價現(xiàn)有的控制手段能否在壞影響發(fā)生的時候解決問題。
也就是說風險無論如何都會存在,但是得有控制手段解決。
盡管評價風險是重要的,但這是建立在有理有據(jù)的基礎,需要評價它有多少可能發(fā)生。要承認計劃外的斷電確實可能會發(fā)生,而主觀去想象更重要。
你需要尋找什么?
評估風險時要避免把所有可能的危險全都列舉出來。而是著重于可能性較為合理 的。由于“飛機撞數(shù)據(jù)中心”或者“太陽能燒了處理器”這種事情只能分類在范圍更廣的類別中。
把所有可能發(fā)生的風險因素列舉好,然后考查現(xiàn)有的控制手段,確保它們適合。 比如說,你不能因為有一個故障轉(zhuǎn)移站點,就忽視颶風的風險,即使沒發(fā)生你也得考慮如何最小化這種潛在的破壞。
IT環(huán)境可能要面對以下潛在威脅:
缺乏冗余數(shù)據(jù)中心關鍵架構。包括UPS或者配電路徑,沒有后備發(fā)電機,有單點故障的冷卻系統(tǒng)或者不完善的防火等等。
地理和氣候相關的威脅。無論數(shù)據(jù)中心和IT架構的冗余程度如何,整個設施如果受到氣候影響,還是會發(fā)生單點故障。
缺乏冗余IT架構部件或存在單點故障。這部分范圍較廣,從高級部件比如單獨網(wǎng)絡連接和關鍵應用服務器,到粒狀的單獨電源服務器。
物理和邏輯安全不足。不鎖門,或者安保系統(tǒng)薄弱。
數(shù)據(jù)備份步驟不一致。通常是失敗的備份、報告或者監(jiān)控,缺乏站外的備份拷貝或者不一致的站外備份傳輸。
未定義恢復時間或者恢復點。這會導致對數(shù)據(jù)備份的錯誤評估,通常方法對了,但是結(jié)果錯誤。
不完善的變更管理步驟。缺乏合適的變更控制,通常會成為計劃外斷電或者人為數(shù)據(jù)丟失的起因。
配置文件材料缺乏。高度依賴IT人員是不能完全代替基礎的配置文件。
缺乏災難恢復計劃。在災難評估步驟,早就不斷強調(diào)了這一點。