项目背景
随着系统的日渐繁杂和信息化的深入应用,XX市税务局的运维工作开始面临很大挑战:集中运行维护体系建设相对缓慢,系统监控和配置工具比较零散,采集来的监控数据格式迥异,无法进行统一的分析和处理,很难实现对应用系统状况进行整体全面的监控,亟待整合;缺乏自动告警机制,运维风险极高。在运维管理上,缺乏一套符合ITIL标准的运维工作流程和支撑工具,突出表现是整体运维水平较低,处理事务流程繁琐。而随着税收改革工作的不断深化,需要创新应用大量新技术,对信息技术队伍提出了更高的要求。
运维现状及痛点
故障定位久
网络出现故障往往需排查一天甚至更久,对业务影响大
救火式运维
大部分是用户反馈才知晓业务中断,数据库单节点出故障运维人员常常浑然未知,业务中断
的风险极高
检查不全面
设备资源使用情况均为人工手动检查,常出现疏漏或重复
预警告警
缺乏告警机制,未能提前介入处理紧急故障,导致故障修复时间加长
工作繁重
机房分布在多个区域,日常巡检消耗人力资源,报告内容不全面、不规范
无法实时检测
未能实时了解每台服务器磁盘使用情况,常出现磁盘空间满导致应用系统无法运行
解决方案
监控设备拓扑图
运维管理范围
使用产品
华汇数据IT综合运营管理系统ITO
业务系统
自助办税终端应用
涉税平台应用系统
社保协同办公系统
存量房应用系统
综合辅助平台应用系统
电子档案系统
社保费协同办公系统
风险管理局数据平台等
网络设备和安全设备
市局核心路由器、核心交换机、市局接入层交换机
县区局核心路由器、核心交换机
防火墙、病毒网关、审计系统等
虚拟平台、存储设备、数据库巡检
SPAR, IBM, HP 的存储,以及VMWARE 虚拟化平台
物理服务器和操作系统
Linux、Windows
呈现效果
精准定位故障
故障节点一目了然,可快速定位问题根源,无需再花费过多时间排查
主动运维
随时查看各大核心业务系统状态及链路情况,对于单节点故障设备提前进行修复,为业务连续性提供有效保障
全面监控
覆盖全面,涵盖了服务器、虚拟化平台、网络设备、安全设备、数据库和中间件等内容
实时监测
实时监测全局所有业务系统及服务器运行状态,重大故障自动发送告警短信,方便人员及时介入解决
运维省时省力
自动巡检及报表管理,极大方便了人工日常巡检工作及报告的撰写
主动预警
异常自动产生预警,出现紧急故障发送告警短信或邮箱,方便运维人员提前介入处理,有效缩短故障修复时间