什麼是災難復原?
災難復原是組織預測與解決技術方面之災難的程序。為阻礙工作負載或系統在其主要部署位置實現其業務目標的任何事件 (例如停電、自然事件或安全問題) 做好應對準備和順利復原的過程。使用復原點目標 (RPO) 和復原時間點目標 (RTO) 來衡量災難復原目標。災難恢復所處理的故障往往比高可用性所涵蓋的故障更為罕見,並且是規模更大的災難事件。災難復原包括組織從這類事件中快速復原的程序和政策。
為什麼災難復原很重要?
災難是導致 IT 系統速度變慢、中斷或網路中斷的非預期問題。中斷有多種形式,包括以下範例:
- 地震或火災
- 技術故障
- 系統不相容
- 簡單的人為錯誤
- 第三方蓄意未經授權存取
這些災難會擾亂業務營運,引起客戶服務問題,並導致收入損失。災難復原計畫可協助組織迅速回應破壞性事件,並提供以下主要優勢。
確保業務連續性
發生災難時,可能會對業務的各個方面造成損害,而且通常代價高昂。此外還會中斷正常的業務營運,因為團隊工作所需的工具存取受限,從而降低了團隊的生產力。災難復原計畫會提示備份系統和資料快速重新啟動,以便操作可按排程繼續。
增強系統安全性
將資料保護、備份和還原程序整合至災難復原計畫中,可以限制勒索軟體、惡意軟體或其他安全風險對企業的影響。例如,雲端中的資料備份具有許多內建的安全功能,能夠在可疑活動影響業務之前對其進行限制。
提高客戶保留率
如果發生災難,客戶會質疑組織安全實務和服務的可靠性。災難影響企業的時間越長,客戶的挫敗感就越大。良好的災難復原計畫透過培訓員工處理客戶查詢,可降低這種風險。當客戶觀察到企業已為應對任何災難做好充分準備時,他們會充滿信心。
降低回收成本
視乎嚴重程度,災難會導致收入和生產力方面的損失。當系統在事故發生後很快恢復正常時,強大的災難復原計畫可避免不必要的損失。例如,雲端儲存解決方案是一種經濟高效的資料備份方法。您可以在業務照常營運的同時管理、監控和維護資料。
災難復原如何運作?
災難復原專注於在中斷後幾分鐘內啟動並執行應用程式。組織可針對以下三個要素制定解決方案。
預防
為減少與技術相關的災難可能性,企業需要制定一項計畫來確保所有關鍵系統盡可能地可靠和安全。由於人類無法控制自然災害,因此預防僅適用於網路問題、安全風險和人為錯誤。您必須設定適當的工具和技術來防止災難。例如,系統測試軟體可在套用所有新組態檔案之前自動檢查,這可防止設定錯誤和故障。
預期
預測包括預測未來可能發生的災難、了解後果,以及規劃適當的災難復原程序。預測會發生的情況極具挑戰性,但您可以根據以往情況和分析經驗來提出災難復原解決方案。例如,將所有關鍵業務資料備份至雲端,以免將來內部部署出現硬體故障,這是一種實用的資料管理方法。
緩解
緩解是企業在發生災難情況後的回應方式。緩解策略旨在減少對正常業務程序的負面影響。所有利害關係人都知道在發生災難時該怎麼做,包括以下步驟。
- 更新文件
- 定期進行災難復原測試
- 識別停機時的手動操作程序
- 與相應人員協調災難復原策略
災難復原計畫有哪些關鍵要素?
有效的災難復原計畫包括以下關鍵要素。
內外部溝通
負責建立、實作和管理災難復原計畫的團隊,必須相互溝通其角色和職責。如果發生災難,團隊應知道誰負責什麼,以及如何與員工、客戶和彼此溝通。
復原時間表
災難復原團隊必須確定系統在災難後,何時恢復正常運作的目標和時間範圍。某些產業的時間表可能比其他產業更長,而另一些產業則需要在幾分鐘內恢復正常。
時間表應解決以下兩個目標。
復原時間點目標
復原時間點目標 (RTO) 是一個指標,用於確定在完成災難復原之前所用的最長時間。您的 RTO 可能因受影響的 IT 基礎設施和系統而異。
復原點目標
復原點目標 (RPO) 是指災難後資料遺失可接受的最長時間。例如,如果您的 RPO 是幾分鐘或幾小時,則您必須不斷地將資料備份至鏡像站點,而不是僅在一天結束時備份一次。
資料備份
災難復原計畫可確定您備份資料的方式。選項包括雲端儲存、供應商支援的備份,以及內部異地資料備份。為應對自然災害事件,不得在現場進行備份。團隊應確定誰備份資料,備份哪些資訊,以及如何實作系統。
測試和最佳化
您必須每年至少測試一次或兩次災難復原計畫。您可以記錄並修復您在這些測試中發現的任何差距。同樣,您應經常更新所有安全和資料保護策略,以防止無意的未經授權存取。
如何建立災難復原團隊?
災難復原團隊包括由專家組成的協作團隊,如 IT 專家和擔任領導職務的個人,他們對團隊至關重要。團隊中應有人負責以下關鍵領域。
危機管理
負責危機管理的個人立即實作災難復原計畫。他們與其他團隊成員和客戶溝通,並協調災難復原程序。
業務持續性
業務持續性經理確保災難復原計畫與業務影響分析結果保持一致。包括災難復原策略中的業務持續性計畫。
影響復原和評估
影響評估經理是 IT 基礎設施和業務應用程式方面的專家。他們將評估和修復網路基礎設施、伺服器和資料庫。他們還管理以下範例所示的其他災難復原任務。
- 應用程式整合
- 資料一致性維護
- 應用程式設定和組態
最好的災難復原方法是什麼?
在規劃災難復原時,企業會實作以下一種或幾種方法。
備份
備份資料是所有企業實作災難復原最簡單的方法之一。備份重要資料需要將資料存放在異地、雲端或可拆卸磁碟機上。您應經常備份資料以使其保持最新狀態。例如,透過備份至 AWS,企業可藉助靈活且可擴展的基礎設施來保護所有資料類型。
資料中心災難復原
在發生某些類型的自然災害時,適當的設備可保護您的資料中心,並且有助於迅速進行災難復原。例如,滅火工具有助於設備和資料在火災中倖存,備用電源可在斷電時支援業務持續性。同樣,AWS 資料中心擁有創新的系統,可保護其免受人為和自然風險。
虛擬化
企業使用不受實體災難影響的異地虛擬機器 (VM),來備份其資料和操作。透過將虛擬化作為災難復原計畫的一部分,企業可自動化一些程序,從而更快地從自然災難中復原。將資料和工作負載持續傳輸至 Amazon Elastic Compute Cloud (Amazon EC2) 等虛擬機器,這對於有效的虛擬化至關重要。
災難復原即服務
AWS Elastic Disaster Recovery 等災難復原服務可在發生災難時,將公司的電腦處理和關鍵業務營運轉移至自己的雲端服務。因此,即使內部部署伺服器已關閉,正常操作也可以從供應商的位置繼續。Elastic Disaster Recovery 還可防止雲端中的區域發生故障。
冷站點
如果發生自然災害,公司會將其業務轉移至另一個很少使用的實體位置,稱為冷站點。這樣,員工就有了工作之地,業務職能也能正常進行。這種類型的災難復原不會保護或復原重要資料,因此,必須將此方法與另一種災難復原方法一起使用。
AWS 如何協助進行災難復原?
Elastic Disaster Recovery 是一項災難復原服務,可以快速、可靠地復原內部部署和以雲端為基礎的應用程式,從而減少停機時間和資料遺失。該服務可將您的 RPO 減少至幾秒鐘,將 RTO 減少至幾分鐘。您可以在軟體問題或資料中心硬體故障等非預期事件後,快速復原操作。此外,這也是一種靈活的解決方案,因此您可以新增或移除複寫伺服器並測試各種應用程式,而無需專門的技能集。
Elastic Disaster Recovery 包含以下優勢。
- 移除閒置網站資源以降低成本,因此您僅在需要時為完整災難復原站點付費
- 將以雲端為基礎的應用程式轉換為在 AWS 上以原生方式執行
- 發生安全事件時,以其最新狀態或從前一個時間點,在幾分鐘內還原應用程式
立即建立 AWS 帳戶,開始使用 AWS 上的災難復原。