发布日期:2023-09-12 16:41:44
01. 故事背景
IT运维部门平均每月都会接收1-2次内部办公系统访问缓慢的用户反馈或投诉,月月被投诉,IT不胜其烦。经排查,绝大部分时候是由于与某个应用有关的Windows服务器的CPU资源占用奇高,导致系统无法响应用户请求,从而产生“慢”的现象。
02. 问题排查
在羊城晚报,内部办公(OA)系统需要遵循“报业网络安全等保第二级”的要求,对服务器日志进行集中收集和留存。
羊城晚报使用的日志审计系统,采用的时C/S架构,需要在每台服务器上安装一个客户端,该客户端会收集那台服务器产生的日志,并将日志转发到集中日志接收和存储系统。
可能是bug等原因,安装在Windows服务器上的日志收集客户端软件,时不时“发疯”一样抢占CPU资源,导致资源耗尽,响应卡死。该客户端安装在linux服务器上却一切正常。
03. 临时方案
临时的故障解决方法是在Windows服务器上,将该日志收集客户端先停掉,再次启动,故障即可解决。
羊城晚报数次找到日志审计系统的厂家,要求厂家解决此问题,但厂家反馈是自身日志审计系统是基于开源社区的工具进行二开,该问题属于原始工具的问题,他们也无法彻底处理,并且只在Windows服务器上不定时出现,他们暂时不会花精力投入研究,建议客户每次问题出现后,就手动处理,但每次问题出现时,都伴随对IT部门的投诉。
*厂家推测:客户端在向集中日志存储系统传送日志时,如果出现失败(比如网络中断),会再次尝试,这种再次传送行为在Windows系统上,可能触发了一些兼容性问题,导致尝试次数越多,旧的资源不会被释放,同时,不断抢占新资源,最终导致服务器资源“耗尽”。
04. WeOps应对及效果
用WeOps监控告警,先于用户发现该问题,并在用户保障前处理,避免用户投诉。
① 监控所有Windows服务器的资源情况,并设定告警规则,按照“提醒”“预警”“致命”三个层级,发送告警通知给IT管理员,管理员手工处理,与用户投诉抢时间。
② 计划进一步优化到自动化处置(技术上可行,但处置风险和管理要求在评估中),如告警后无人处理,则等待一段时间后,WeOps自动化处置并记录,无需人为干预。
WeOps监控告警还帮助羊城晚报加快发现其它生产故障,例如采编系统抽图异常、通讯社稿件无法入库到编辑系统稿件库等,提升核心系统的可用性。
「WeOps监控告警不仅帮助了羊城晚报的OA访问慢问题,还加快发现其它生产故障,例如采编系统抽图异常、通讯社稿件无法入库到编辑系统稿件库等,提升核心系统的可用性。」
羊城晚报随着业务的迅速发展,羊城晚报IT系统架构愈加复杂,IT设备的数量和种类也在与日俱增。如何及时发现故障,预防故障,从而缩短故障恢复时间,降低故障发生率,对保障IT系统的可靠性与高可用性至关重要,羊城晚报计划建设一体化运维平台,为社内构建IT资源的集中监控、统一告警和故障自动化处置等能力,支撑核心业务稳健运行。
中远海运特种运输股份有限公司(简称:中远海运特运),隶属于中国远洋海运集团,主营特种船运输及相关业务,致力于打造世界一流的特种船队。目前拥有规模和综合实力居世界前列的特种运输船队,经营管理各类型船舶100多艘300多万载重吨。覆盖近百个国家和地区、200多个港口的全球服务网络......
港华集团为香港中华煤气在内地投资及营运管理的业务组合,自1994年进入内地以来持续深耕燃气市场,业务覆盖天然气上、中、下游,目前在24个省、自治区及直辖市经营逾300个燃气项目,服务客户逾4000万户......
申请演示