在很多IT组织中,大家工作的重点往往专注于解决事件,但长期专注于此,会出现疲于应对的现象,例如事件数量居高不下,工程师焦头烂额疲于奔命。长此以往会使问题的数量持续增加,持续未解决的根本原因会导致更多事件。如果IT组织希望有效开展问题管理流程,同时兼顾事件管理,那在两者之间需要找到平衡点。
01. 问题管理如何发挥作用
问题管理的唯一目标是识别并消除重复发生事件的根本原因。在无法预防事件的情况下,问题管理力求将发生的事件对业务的影响降至最低。
如果只关注“如何快速找到问题并恢复服务”,那并没有进行问题管理,而是进行了事件管理,事件管理的核心目标是快速恢复服务。而问题管理是一个完全不同的流程,主要分为被动式和主动式两种类型。
1)被动式问题管理
被动式问题管理是从事件中被动触发的,许多IT组织会对重大事件进行事后审查,当发现存在潜在问题时,就会开展被动式问题管理工作。
2)主动式问题管理
主动式问题管理是使用数据趋势和历史信息识别潜在的问题,可以是持续开展服务改进的活动,也可以是适当地使用数据进行分析,甚至简单依靠积累的经验和直觉。
无论是哪种方式,问题管理都需要根据对业务的价值定义优先级。例如使用“业务影响分析”等方法,可以识别出优先解决哪些问题可以给业务带来更高的价值。
02. 不同规模的组织如何构建问题管理
IT组织构建问题管理应根据IT组织的规模大小进行区别化设计,确定一个IT组织问题管理流程的模式应该考虑以下几个因素:
如果无法有效衡量,可以参考以下内容:
1)小型组织的问题管理
小型组织的问题管理通常不单独设置流程经理,主要通过定期的例会讨论问题管理相关的内容。会前,建议各领域的负责人基于上一周期的工作记录,归纳汇总各自领域内最为关键的几个问题,并将这些问题在会上讨论并确定后,在下一个周期进行调查处理和解决。
2)中大型组织的问题管理
在中大型组织中,涉及的业务领域较多,通常采取统一的问题管理模式,在这种模式下,重点在于找出解决方案并实施。主动性问题管理通常会定义问题来源的多种方式,例如,在某个特定阶段,频繁触发的监控告警、用户频繁反馈的重复事件或重大事件、日常巡检中发现的潜在问题,以及偶然间发现的业务流程或服务中的关键缺陷。这种模式下,通常会由问题经理进行定期收集、汇总、协调解决和跟踪。
除了以上提到的问题构建方式以外,在日常运营中,还应该注意以下细节:
03. 如何做好问题管理
1)区分事件和问题以及管理职责
在前边的内容中提到,事件和问题管理的目标并不相同,事件管理的重点是及时处理事件恢复服务;而问题管理则更侧重于预防性的措施,旨在识别和消除可能导致事件或其他不利影响的潜在问题。通过清晰地区分这两者,IT团队可以转变其工作模式,从被动地应对突发状况,转变为积极主动地寻找并消除潜在的风险隐患,从而提升整体的服务质量和稳定性。
同样对于事件经理来说,重点是快速解决事件,而问题经理的目标是预防。通过结合这两个角色的共同努力,可以从根本上提升应用系统的连续性和可用性。
2)充分分析问题
问题的分析方法有很多种,组织可以考虑在不同的场景下使用不同的方法,达到快速有效的问题分析。以下是在不同场景下的分析工具:
3)以结果为导向
许多IT组织在问题管理活动中往往过于关注问题的数量和解决时间,然而这些并非衡量问题管理成效的核心标准。真正有效的问题管理应当通过两个关键维度来衡量:一是问题管理的关键绩效指标,二是问题管理对业务运营的实际影响。可以参考以下示例:
4)发挥已知错误数据库的作用
这一观点也是知识管理的建议,为不同的团队提供问题的已知错误数据库的权限,以及相关的解决方案。这种方式可以让团队之间相互学习,节省事件和问题的处理时间,让整个组织保持高效运行。
03. 结语
通过实施有效的问题管理,IT组织不仅可以从根本上解决反复出现的事件,还能显著提升服务的稳定性和客户满意度。区分事件管理和问题管理的职责,利用适当的分析工具,如头脑风暴、5WHY和鱼骨图,可以更快速地找到问题根源并采取有效的预防措施。定期审查和利用已知错误数据库,进一步增强问题管理的效果。最终,问题管理的目标是通过持续改进,实现IT服务的高效、可靠和可持续性。
DevOps系列:CICD流程建设之持续测试实践指南
查看详细
betway必威蓝鲸配置管理中心重磅发布,数据运维全面升级!
查看详细
betway必威蓝鲸 WeOps V4.15上新 | 增强阿里云资管和监控能力
查看详细
【新品发布】betway必威蓝鲸WeOps运维平台一体机全新发布:高性价比、强大稳定、即插即用的企业级IT运维设备
查看详细
一文掌握DevOps落地的终极实践,8大关键路径揭秘!
查看详细
DevOps 组织的建设密码:人才胜任力模型全解析
查看详细
申请演示