01. 场景简述
采用WeOps的监控能力,结合Exchange专家定制的专用化监控方案,实时监测服务器磁盘、邮件系统关键指标,异常告警,提醒管理员及时处理(支持自动化处理),配置后(近3个月),故障频率从1~2月一次,降到“零”故障。
02. 故事背景
1)邮件系统运维要求
周大福Exchange邮件系统维系着全集团(包括顺德、武汉、香港和深圳等四大区)的协同办公,如分店与分店、分店与后勤的公告、文件、通知等,其重要性不言而喻,集团要求邮件系统可用性不低于99.99%,基本上不允许出现故障。
2)故障现象
今年上半年曾先后发生几起邮件投递失败的重大事故,受影响的用户多达上千人,IT运维团队为此也受到严厉的责罚。
3)故障原因
最终定位到根因为部分Exchange邮件系统服务器由于邮件量的增加,导致磁盘空间不足,触发了系统的反压机制,导致部分邮件无法正常投递,一直停留在队列中。
4)故障困扰
周大福邮件系统服务器数量多达40+台,且后端服务器的磁盘数较多(8-10个盘),尽管每天都在进行例行检查,发现磁盘不足及时扩充,但是扩多了浪费,扩少了很快又满,总是容易出现疏漏。令运维人员头疼的是,公司门店常有促销活动,需要大量带附件的邮件群发,这容易导致服务器的磁盘空间在前后两次巡检之间剧增达上百GB,造成故障,因此,事故接二连三的发生……
03. WeOps应对及效果
1)实时监测Exchange邮件系统所有数据盘的磁盘空间,提前预警
① 对Exchange邮件系统40+台服务器批量安装代理,实时监测磁盘空间的变化情况;
② 新建Exchange邮件系统仪表盘,通过折线图方式展示所有数据盘的磁盘空间使用情况;
③ 基于本次故障的经验,对所有数据盘的“磁盘空间使用率” 设定严格的监控策略,并通过短信、邮件、微信等途径通知到相关人员处理。
当磁盘空间超过80%时,触发“预警”级别告警;
当磁盘空间超过85%时,触发“致命”级别告警;
④ 除对邮件系统的磁盘使用率、CPU、内存等基础指标监测外,还对邮件队列、重试投递队列、客户端连接数等关键应用指标进行检测,及时感知异常,保障邮件系统稳健运行。
2)WeOps实现效果
① WeOps监控告警配置完成后,未再出现邮件投递失败的事故
04. 场景适用性
该邮件系统监控的场景,适用于绝大部分企业的运维场景。WeOps监控,帮助企业早于业务发现问题,提升核心系统的可用性。
DevOps系列:CICD流程建设之持续测试实践指南
查看详细
betway必威蓝鲸配置管理中心重磅发布,数据运维全面升级!
查看详细
betway必威蓝鲸 WeOps V4.15上新 | 增强阿里云资管和监控能力
查看详细
【新品发布】betway必威蓝鲸WeOps运维平台一体机全新发布:高性价比、强大稳定、即插即用的企业级IT运维设备
查看详细
一文掌握DevOps落地的终极实践,8大关键路径揭秘!
查看详细
DevOps 组织的建设密码:人才胜任力模型全解析
查看详细
申请演示