01. 运维挑战日益凸显,转型迫在眉睫
随着业务的高速发展,微服务、容器等新技术已在悄然之中快速应用创新。某省级运营商内部新老系统并行,架构和交易调用过程复杂,现存的监控手段分散,无法实现端到端交易全透明。
而智慧中台虽不断持续建设,但过程中IT新旧架构并存,IT范围从B域向大数据域、M域、O域扩张,加上IT对象多元化等变化,让运维面临的挑战日益凸显:
面对巨大挑战,该运营商迫切需要全新的IT运营管理支撑体系,通过自动化+智能化+敏捷化运维支撑,以及开放共享的平台化能力,推动传统运维向“主动服务、主动运营、主动赋能”云化运维模式转型,确保IT运维、业务支撑等工作的高效协同开展。
经过不断比对与论证,该运营商最终携手betway必威蓝鲸,引入蓝鲸平台作为技术底座,沉淀集中监控、集中运维、集中操作、集中流程、集中调度运维基础能力,打造能力领先的“敏捷化、集中化、智能化”的IT运营监控平台,助力运维团队实现敏捷化、运维研发化(OpsDev)、运营数字化、运维智慧化。
同时,基于平台赋能,各专业、各域运维团队可以以更低成本、更高效率打造运维能力,携手共建运维应用场景和运维生态,推动人运维系统到人控制工具运维系统转型。
02“能力+应用”构建松耦合IT运营监控支撑体系
该运营商按照“能力+应用”的思路,打破烟囱式建设模式,构建一个可快速迭代的松耦合的IT运营监控支撑体系,实现运维数据共享、能力开发、敏捷迭代、智能运维、快速支撑。
同时基于平台能力,可快速构建专业应用及场景,满足各专业、各团队运维运营需求。
03“提智聚能”锋芒展露,团队SRE转型初见成果
运维边界扩大、人员却没有增加的情况下,如何赋能运维人员,提升运维价值?基于平台进行SRE转型,是该运营商交出的答卷。
PaaS化的技术体系,完善的前后端开发框架、调度引擎、公共组件等模块,让该运营商能够基于平台进行岗位创新,打造SRE团队,沉淀和扩展运维能力,共建运维价值生态。
例如该运营商自主研发的应急管理平台,对各业务的应急能力进行了封装,OnCall人员可以通过平台看到当前服务的状态,并且快速对服务进行上下线、应急通道切换等操作,整个过程可视、可管、可控,解决了OnCall人员切换应急效率低、易出错等问题。
目前应急管理平台已经稳定运营一年以上,故障的平均恢复时长从小时级别减少至分钟级别,应急预案覆盖率从0%提升至42%,故障处理率从0%提升至40%,同时实现了故障数量和处理时长的双压降!
在集团“提智聚能”活动中,应急管理平台等多款SaaS获评运维能力标杆,并进行全国巡展、赋能智慧中台;AIOps自动驾驶应急保障L4探索项目也成功入选集团创新试点,这标志着该运营商业务支撑创新能力进入全国前列!
04. 打通关键环节,实现运维的数字化转型
除了团队生态化能力提升,数据消费、敏捷联动、感知分析、自动执行等能力的落地,也是实现智能化运维支撑的重要前提。
通过本次IT运营监控支撑体系的构建,该运营商打通运维关键环节,落地了可供消费的统一CMDB资产管理、整合运维信息与资源的ITSM敏捷引擎、数据全面的业务可观测管理、能力齐全编排灵活的自动化执行体系,实现了运维的数字化转型,为AIOps探索转型打下夯实基础。
1)可供消费的统一CMDB资产管理
处于运维工作核心的CMDB是自动化、智能化运维的基石。该运营商构建了消费型统一CMDB资产管理,实现100%业务配置接入、自动数据采集和数据消费。
2)整合运维信息与资源的ITSM敏捷引擎
通过统一的自服务门户、流程引擎、知识库、自动化调度,全面整合信息流、管理流和执行流,成功构建敏捷的ITSM流程管理。
① 流程建设:已建敏捷流程近20个,包括SLA、日常运维、演练管理、巡检管理等;
② 工单运转:总工单数为1000+,其中SLA流程近300个,日常运维操作流程200+个,演练管理流程200+个,巡检管理流程100+个;
③ 能力对接:对外开放API 10+个,对接运维工具10+(包含自动化能力、智能化能力)。
3)数据全面的业务可观测性管理
通过全景集中监控,该运营商可观测性能力覆盖CRM前端系统、CRM后端系统、BOSS系统等,全面整合数据,实现业务可观测性管理。
① 监控成效:Metric:已接入监控的资源总数有近40000个,共20+个资源类型,采集插件40+个,监控策略配置模板10+条;Trace:部署Web端监控、App端监控、服务端监控等10+个数字化运营场景。
② 告警成效:告警总数157760,处理告警数157732,近一月的历史告警数33901;落地告警收敛策略、告警转工单策略及告警自愈策略。
4)能力齐全,编排灵活的自动化执行体系
基于强大的流程编排引擎、自动化引擎、丰富的API接口,该运营商构建了统一服务管理平台,实现巡检自动化、应用启停、应急切换等自动化执行体系。
① 基础自动化:巡检脚本数近90个,巡检模板数70+,近10类巡检对象,任务总数70+个;
已构建10+个应用系统的应用启停任务;灾切自动化,对接50+个应用,共有灾备切换任务20+条。
② 应急预案体系:应急预案覆盖近10类场景,包括BOSS、云平台、CRM、BOMC、BASS、动环、安全、其中自动化预案10+。
05. 结语
运维团队有能力,运维环节有数据,该运营商已经初步实现“运维”向“运营”转型。未来,该运营商可以在此基础上进行工作度量,实现PDCA循环演进;还可以基于数据和算法实现AI in ALL,将AI嵌入运维场景,实现运维效能的进一步优化,更加有效支撑业务高质量发展!
DevOps系列:CICD流程建设之持续测试实践指南
查看详细
betway必威蓝鲸配置管理中心重磅发布,数据运维全面升级!
查看详细
betway必威蓝鲸 WeOps V4.15上新 | 增强阿里云资管和监控能力
查看详细
【新品发布】betway必威蓝鲸WeOps运维平台一体机全新发布:高性价比、强大稳定、即插即用的企业级IT运维设备
查看详细
一文掌握DevOps落地的终极实践,8大关键路径揭秘!
查看详细
DevOps 组织的建设密码:人才胜任力模型全解析
查看详细
申请演示