数据中心事件管理的关键控制点

数据中心事件是指发生的对IT体系某一环节运行造成影响的事件，包括系统崩溃、软件故障、基础设施故障以及任何影响用户业务操作和系统正常运行的故障。事件也包括一个用户的请求。对日常性运维工作中出现的一些突发事件和由用户/维护人员报告的事件会装入事件管理范畴。而想要做好数据中心运维事件管理，就必须从以下论点入手：一、完善的管理机制制订有效的事件管理制度是为了规范数据中心事件管理过程，及时消除或控制事件造成的影响，提高事件的应急处置能力和信息安全的综合管理水平。数据中心的事件管理相关制度包含常规的事件管理制度、重大事件应急处理制度，以及与事件相关的可用性管理、监控管理、值班管理、ECC管理制度等。以常规的事件管理制度为例，其主要关注点如下。

一、完善的管理机制

制订有效的事件管理制度是为了规范数据中心事件管理过程，及时消除或控制事件造成的影响，提高事件的应急处置能力和信息安全的综合管理水平。数据中心的事件管理相关制度包含常规的事件管理制度、重大事件应急处理制度，以及与事件相关的可用性管理、监控管理、值班管理、ECC管理制度等。以常规的事件管理制度为例，其主要关注点如下。

（1）明确的事件处置目标：在数据中心出现事件时能尽可能快速恢复数据中心正常运行，把对业务的影响降到最低，以确保服务质量满足SLA的要求，实现快速定位故障、迅速处置。

（2）清晰的角色职责划分：事件管理的角色包括用户、服务台、运维工程师、事件经理、值班工程师以及运维监理构成，协调部门包含值班经理、值班主管和事件处置决策人。处理部门包含服务台、一线、二线和三线，各岗位职责分工明确，互相配合，以提高协同处置能力，减少沟通成本。

（3）做好事件级别的定义：事件级别的定义需要确定事件的优先级，以确保足够的资源对事件进行有效的处理。事件优先级由事件的影响度和紧急程度决定。影响度是指业务影响面，通常通过受影响的用户数量、受影响的服务器台数、可能造成的业务损失等来判断。紧急度是指事件需要被解决或能够容忍被延迟解决的速度。

事件分级建议分为：

*一般事件：指由机房基础设施内部保护性报警，短时间运行异常等因素引起的对机房设备的正常运行形成安全隐患但未造成实际影响的各种异常情况。

*严重事件：指由机房基础设施故障，以及其他外界或人为因素对机房正常运行造成影响（非关键业务N台以上IT设备非正常停机）的各种异常情况。

*重大事件：指由机房基础设施故障，以及其他外界或人为因素对机房正常运行造成重要影响（重要业务或N台以上IT设备非正常停机）的各种异常情况；

（4）固化的通报和处理流程：按照事件级别，严格定义事件通报对象和升级的时限要求，将通报和处理两个环节分别拆分细化和标准化，简化冗余操作，固化处理流程，以最快的效率完成事件通报报和处理。

（5）确认事件关闭：事件解决并恢复服务后，必须确保事件相关的信息得到了更新和准确的记录，如发生事件的根本原因未能找到，则应转入问题管理流程后，该事件方可关闭。

（6）完善的事后总结工作：事件处理完毕后，通过问题工单跟踪整改措施，通过应急预案更新工单完善应急处理手段。总结经验教训，纳入知识库，形成组织过程资产。

二、闭环的管理过程

数据中心的事件管理机制包括了事前、事中和事后处理三大环节，主要如下。

事前：完善工作机制、提高预警能力，更早发现问题。制订闭环的事件管理机制，打通事件管理与监控管理、值班管理、容量管理等能力项接口，运用自动化、智能化的分析工具和手段，变被动为主动、做到事前预防。

事中：协同高效，快速恢复。事件处理过程中的一切决策都以快速恢复生产服务为首要目标，从流程和调度层面解决故障处理过程中的信息孤岛问题，使得处置人员可以共享信息，共同排查、定位故障原因，采取应急措施，做到事中及时有效的处置。

事后：举一反三，持续优化。事后管理需要深挖事件根源，最大化地提取事件经验教训。通过运维、开发、测试、风险和厂商等多方共同参与，对事件进行剖析、复盘，发现在监控、调度、工具和技术等层面的不足，进行持续优化，并对好的经验进行分享，定期组织事件总结分享，做好经验的推广和实施工作。

三、事件管理与其他管理的关系

（一）与问题管理的关系问题管理的目的是找出事件的根本原因，并通过变更管理来进行纠正，以防止此类事件的再次发生。解决时长超时限：事件处理过程无法按照规定时限解决，需要转为问题管理进行处理。解决难度大：故障、缺陷等难度过大，且需要投入更多资源参与解决的，转为问题管理流程进行处理。

（二）与变更管理的关系变更管理的目的是确保以受控的方式去评估、批准、实施所有的变更请求并保证所有的变更可跟踪和追溯。在事件处理过程中，可能需要对涉及的相关配置项进行必要的变更才能解决的事件，经处理人确认并发起变更流程。事件与变更是相互影响的关系，事件处理可能触发变更流程，而变更流程也可能导致事件的发生。

（三）与配置管理的关系事件处理过程中，有可能需要从配置管理数据库中查询相关基础设施配置项的属性和配置项间的关联关系来协助事件的解决。

（四）与知识管理的关系事件得到解决后，事件经理、运维工程师负责对解决事件的思路、方法进行总结，提炼有价值的知识内容提交知识库进行共享。

四、结束语

通过管理与技术手段不断完善，实现了事前预防、事中处置和事后总结的闭环管理，通过主动性运维，协同高效处置事件等手段，确保事件管理的目标达成，从而不断提高我行信息系统的服务质量与可用性水平。

参考文献：

[1]谭玉琳,王琪.数据中心事件管理演进之路[J].金融电子化,2018(10):83-84.

[2]吕兴凯.银行数据中心运维管理信息系统的设计与实现[D].哈尔滨:哈尔滨工业大学,2018.

未经授权，禁止转载。公众号：数据中心基础设施运营管理

-END-