什麼是事件管理?

事件管理 (IM) 是 IT 團隊用來回應意外服務中斷的程序。出現網路連線中斷或效能下降、未執行排程任務 (如備份任務) 或 API 無回應等事件時,便會發生意外中斷。事件管理程序試圖快速恢復 IT 服務的正常運作,並將業務影響降至最低。在此過程中,團隊需要偵測和調查事件、解決問題並記錄為恢復服務所採取的步驟。

哪些事件需要事件管理?

事件管理一詞並非僅用於 IT 領域。在 IT 之外,您還會在緊急服務、大型活動管理和工廠營運等領域聽到 IM。

就本文而言,我們在 IT 服務管理 (ITSM) 的內容下提及 IM。在此內容中,事件管理側重於與服務品質和客戶服務本身有關的管理活動。

接下來,我們將討論 ITSM 中 IM 範圍內的不同 IT 事件。

事件

在事件管理中,事件可以定義為導致預期或商定的 IT 服務品質下降的意外事件。事件的規模可以很小,也可以很大,並且您可以指示嚴重程度。例如,服務品質的下降幅度可能微乎其微,並且僅限於特定的地理位置。或者,該服務可能會在多個區域出現完全中斷。

問題

問題是指事件的根本原因,該原因在進一步調查後發現,是全面解決事件所必需的條件。例如,如果 Web 伺服器執行緩慢,則問題可能是資料中心的路由器組態錯誤或週邊的網路電纜被切斷。

變更

在 IM 中,變更是指服務本身為了提高品質或新增功能而發生變化 (舉例而言)。在變更期間,必須謹慎處理翻轉,以避免或最大限度地減少對正常業務營運的干擾。這包括告知客戶預期或潛在的服務中斷。

服務請求

服務請求是在提供商-客戶協議條款範圍內由客戶啟動的請求。應在不中斷正常營運的情況下執行請求。

事件管理如何運作?

事件管理使用一組記錄在案的程序,這些程序清楚地概述需要採取哪些措施來最大限度地減少 IT 中斷的負面影響和持續時間。除了對問題進行技術管理外,事件管理還包括在事件期間管理客戶、使用者和利害關係人的期望。

對於客戶,服務水準協議 (SLA) 明確規定了預期的正常執行時間保證、問題解決時間和事件的溝通管道。該協議要求服務供應商進行全面的事件管理,以符合他們的 SLA 條款和條件。

閱讀有關 SLA 的資訊 »

IT 事件管理框架

組織使用各種框架來建模其 IM。兩個範例是 IT 基礎設施庫 (ITIT) 4 的事件管理和國家標準技術研究所 (NIST) 的網路安全框架。這些框架可以按原樣使用,也可以進行擴展以適應獨特的業務環境、服務以及客戶和利害關係人的溝通標準。

事件管理軟體通常用於在組織內部署框架。使用的確切框架取決於所提供的服務。

 

事件管理程序中有哪些步驟?

事件管理程序中涉及的步驟取決於組織內部使用的框架。接下來,我們將討論許多常見事件管理生命週期框架中的主要步驟。

辨識風險

辨識關鍵資產、系統、資料和其他資源可確定企業面臨的最嚴峻風險所在位置。在向客戶提供服務方面,它涉及辨識其最有價值的系統和資產。

保護資產

辨識資產後,組織就會加強安全性和效能控制。例如,可以跨多個區域部署應用程式,以便其在發生區域性服務中斷時持續可用。 

偵測事件

必須建立系統來監控關鍵資產的狀態,以便即時辨識任何事件。組織必須積極主動地監控異常情況;通常組織不會希望首先從客戶自己報告中斷情況時得知故障。重點是主動補救。

回應事件

一旦偵測到事件,您必須立即停止任何中斷。如果無法停止,您可以遵循程序來控制或限制影響。可能還必須啟動輔助系統,這樣即使沒有快速解決方案,也可以恢復營運。  其中大部分可能是自動化系統,具體取決於事件的性質和目前的事件管理工具。

從事件中復原

在復原階段,開始執行事件的分析。可以吸取經驗教訓,制定改進的回應計劃,以及修復問題和程序。重大事故可能需要執行大量的復原工作。下圖顯示了 Amazon Web Services (AWS) 使用的其中一個事件管理程序。

有哪些事件管理最佳實務?

最佳實務幫助組織在給定的業務單位或戰略領域內以最成熟的水準開展營運。透過遵循事件管理系統中的最佳實務,您可以為客戶提供盡可能優秀的服務。

制定上報政策

您應該能夠根據事件的優先順序和嚴重性對其進行分類,以指導時間表、補救措施和調查活動。如果未按預期回應事件,或者發生高優先順序或嚴重性的重大事件,您應該制定上報政策。如果沒有這些政策,團隊可能會浪費時間來決定應聯絡的人員和採取的行動。

詳細規劃通訊

應該隨時通知利害關係人 (從 IT 團隊到您的使用者) 事件的狀態。建立清晰的溝通管道也極具價值,這樣受影響的人員才能知道從何處取得最新訊息或報告新事件。透過制定明確的溝通計劃,您可以建立信任並避免錯位的責任。關鍵事件總是透過外交方式處理。 

執行根本原因分析

解決事件後,您應該執行根本原因分析,以便首先了解事件發生的原因。這有助於辨識系統中的缺口或漏洞,您可以解決這些缺口或漏洞,以防止將來發生類似事件。從每個事件中吸取的經驗教訓有助於持續改進 IT 基礎設施和程序。

採用混沌工程實務

混沌工程是軟體工程中的一門學科,其中系統會故意受到破壞性條件的影響,例如伺服器故障、網路延遲或資源限制。在系統中製造混沌條件可測試其彈性,還可以增強組織的事件回應和管理流程。這種技術類似于在網路安全事件管理中部署道德駭客攻擊。

AWS 如何支援您的事件管理要求?

AWS 提供了一系列服務,可協助組織在 AWS 和混合環境中提供有效的事件管理。

AWS 事件偵測與回應為 AWS Enterprise Support 提供針對其選定工作負載的主動監控和事件管理。與專家合作,您可以為 IT 事件管理系統定義關鍵指標、警示和優先順序排程,以加快事件發生時的恢復。

AWS Managed Services (AMS) 利用 AWS 事件回應和解決功能協助保護您組織的資訊及其基礎設施。AMS 可用作外包 AWS IT 事件管理的一種方式,這樣組織就可以專注於核心業務。以下是可以使用 AMS 執行的任務:

  • 隨時透過 AWS 主控台中的 AWS Support Center 請求有關營運問題和要求的幫助
  • 接觸全天候支援,回應時間取決於您選擇的帳戶服務方案 (Plus、Premium)
  • 使用相同的機制接收有關重要提醒和問題的主動通知

作為 AWS Well-Architected Framework 的一部分,我們也為雲端事件管理提供明確的指導。對於使用 AWS 雲端服務提供自有 IT 服務的組織來說,這一良好的資源可以幫助其規劃事件管理。AWS 安全事件回應指南是處理安全相關事件的另一項實用資料。

立即建立帳戶,開始使用 AWS 上的事件管理

使用 AWS 的後續步驟

查看額外的產品相關資源
了解管理與管控服務  
註冊免費帳戶

立即存取 AWS 免費方案。

註冊 
開始在主控台進行建置

開始在 AWS 管理主控台進行建置。

登入