必威·BetWay(中文版)官方网站-Best Sports Platform

首页

/

信息系统应急灾备管理的关键业务价值流和活动

发布日期:2024-01-26 17:58:54

分享到

在刚过去的2023年,运维圈发生了不少令人瞩目的事件,尤其在年末各互联网大厂犹如在玩一个“萝卜蹲”的游戏,一个接一个地爆发了各种黑天鹅事件,造成了极大的影响。因此应急灾备管理的建设与重要价值再一次在运维圈热烈讨论了起来,本篇我们将着重针对企业的信息系统应急关键业务流程和活动进行详细说明。


01. 信息系统应急灾备管理的关键业务价值流

说到信息系统应急的业务价值流,其实非常简单,就是“事前——事中——事后”,即“故障事前预防——故障事中调度——故障事后改进”三个环节,让人很容易联想到消防演练和消防救援的关系,没错,就是这么简单的逻辑,如下图所示:

图片源于网络

通过上图可以总结出 ,如果事前我们没有做好充足的准备工作,不进行常态化的演练;如果对事故采取一种得过且过的态度,缺乏深入分析和必要的应急能力,事故发生时,就会手足无措,当火势进一步蔓延,导致财产更大的损失。相反,如果我们做好充足的预防,针对每一次演练及故障详细分析、反思与总结,才能让组织具备完善的应急能力,在故障发生时就会做到快速控制火势蔓延,举重若轻,了然于胸。


02. 信息系统应急灾备管理的活动

站在应急管理的视角来看:

通过以上两层架构我们可以看到,应急的建设底座需要建设相应的管理规范组织能力,同时确保信息系统的底层IaaS支持相关的应急或灾备活动,本次我们暂且不谈;详细聊一聊上层的各种对象,并沿着用户旅程观察所开展的具体活动。

1)故障事前预防

① 预案及场景的梳理及建设

实现应急预案及场景的线上建设,审批发布、跟踪、留痕等管理,解决应急预案及场景分散在各运维人员手中无统一归档、版本不一致等问题。

业务线应急预案
专业线应急预案

针对不同企业内部的应急组织,预案及场景大多情况下分为“业务线”“和“专业线”进行管理,对应企业内部的应用运维组和基础架构组等情况,因此在建设预案及场景的活动时,不仅需要考虑不同类型记录的相关要素,也需要进行权限控制。

② 自动化流程的编排

针对不同的场景,除了制定相应的处置流程,还可以制定业务验证流程,在应急演练和任务执行时,验证自动化的可用性。

③ 应急演练

为了让所有的应急成员能够更好地掌握应急知识,让预案及场景长效保鲜,需要通过不同的形式进行常态化演练。应急用户在平台上上报演练计划,并经过审批,在相应演练窗口进行实战演练/模拟演练/桌面演练,随着演练场景的成熟,用户可通过混沌工程、无损演练的方式,挖掘信息系统可能存在的风险,提高系统的健壮性与稳定性。


2)故障事中调度

① 故障发现

通过可观测体系及时地发现系统故障,同时也为业务提供反馈渠道。

② 应急响应

通过应急管理平台页面发现有异常事件,确认业务影响范围,并通过多维数据的汇聚和统计进行分析,多维数据涵盖近期是否有相关业务的变更,是否有高危操作,是否有历史相同类似应急场景,并立即进行一次业务的健康性检查,最终确定是否为应急事件并启动应急流程。

③ 应急会商

根据影响的业务及范围,通过应急组织或其他不同职责划分,选取应急处置人员,多渠道在线即时IM沟通,反馈问题及处置意见,解决在应急组织过程中信息通知、共享方式分散的问题。

④ 应急决策

根据启动的应急事件所展示的故障特征,启动依据等要素,快速判断是否有应急场景及自动化处置流程与之匹配,如有,则快速执行,验证业务可用性;若没有,则需快速讨论出手动恢复方案,并确定处置风险进行故障上报。

⑤ 应急通告

在故障处置环节,需要定期以故障简报机制定时反馈故障应急进展,直到故障完全恢复,同步确定是否需要进行舆情联动,并进行故障复盘准备。


3)故障事后改进

① 故障复盘

故障应急结束后,应当在最短时间内对故障根因、测试过程、变更过程和应急过程进行复盘,并列出改进建议,持续跟踪。例如故障定级,处置时间的长短等因素可能决定了故障的影响面和影响范围,如果处置足够快,可以允许故障等级降低级别,即故障等级低于事件等级,反之也可以提高故障等级。

故障复盘应尽量实现不再发生此故障,如因架构问题无法短时间内解决时,应保证遇到问题能够快速恢复。在复盘及整改过程中,通过应急过程的快照,详细回溯处理过程,多层次分析原因,统计可以量化的业务影响,最终制定优化措施并再次交由专家评审。


② 培训管理

建立完善的线上培训通知、执行、考核机制,实现应急组织全员的技能持续提升。

③ 持续运营

结合信息系统平台的演练、应急处置等多方面情况,进行能力评估。企业应当设置不同维度的应急运营指标,定期组织开展应急能力评估,发掘故障应急的薄弱环节,集中力量,针对性地改善、提高应急能力。

应急管理是一个融合了配置、观测、执行、流程、智能分析技术能力、管理规范、组织能力的综合体系。

以上,就是针对整个应急体系全生命周期总结的价值流及价值流中的核心活动,希望每个企业都能够将自己的应急能力提升得更加完善,不再发生业务中断,更好地提供服务。

免费申请演示

联系我们

服务热线:

020-38847288

QQ咨询:

3593213400

在线沟通:

立即咨询
查看更多联系方式

申请演示

请登录后在查看!