某塑料科技公司网络与机房监控运维项目
时间:  2024-06-19 16:06:49 | 作者: 火狐体育在线网站

  某塑料科技公司是由日本知名株式会社在中国投资的,以从事橡胶和塑料制品业为主的生产制造企业。随企业信息化建设提速,信息化运用程度逐步的提升,对网络基础设施的管理也提出了更加高的要求,因此公司急需上线一款综合运维平台加强对整体网络的管理和维护。

  随着公司向人机一体化智能系统转型,网络架构日趋复杂,支撑公司网络通信和业务开展的软硬件IT设施种类非常之多,给运维工作造成极大压力。

  设备类型:交换机、路由器、POE交换机、服务器、AC、AP、数据库、防火墙、虚拟机、语音网关、硬盘录像机、行为管理、光端机、打印机、动环监控等

  通过多次沟通了解到其网络内的设备种类、品牌型号均很复杂,用户对设备监控运维的期待也较高,因此智和信通采用远程+现场支持的方式来进行安装部署与支持,最终达成用户期待的效果。

  智和信通充分的利用产品自身强大的模型库配置能力,在现有的监控模型基础进行丰富,快速实现了对用户全部品牌、型号设备的纳管。在项目部署过程中,仅需输入IP地址,即实现了设备发现与类型、品牌型号的识别,并自动搜索出相应的设备资源与设备间的链接关系,自动生成网络拓扑。

  智和信通对现有指标进行快速调整并按照每个用户需要新增了大量用户关注的核心指标,以使用户得到满足对监控阈值、监控周期的需求。部分监控指标如下:

  交换机/路由器:在线状态、响应时间、运行时间、CPU使用率、内存使用率、接口接收/发送流量、接口接收/发送带宽、接口接收/发送丢包率等

  POE交换机:在线状态、电源状态、响应时间、运行时间、CPU使用率、内存使用率、端口状态、端口流量、光口、电口、语音口、包转发率等

  服务器:在线状态、响应时间、CPU使用率、内存使用率、磁盘使用率、磁盘容量预测、进程、接口接收/发送流量等

  AC:在线状态、响应时间、CPU使用率、内存使用率、接口接收/发送流量、射频传输重传帧比率、当前连接用户数、当前断开连接用户数等

  AP:在线状态、接口接收/发送流量、关联的站点总数、关联失败的站点总数、用户在线时间等

  防火墙:在线状态、CPU使用率、内存使用率、接口接收/发送流量、接口接收/发送速率、HTTP请求数、错误率等

  虚拟机:在线状态、CPU使用率、内存使用率、磁盘读写IO、磁盘读写速率、网络接收/发送速率等

  硬盘录像机:在线状态、CPU使用率、内存使用率、磁盘使用率、磁盘容量预测、

  为不同类型和应用场景下的设备创建差异化性能指标,全面采集、存储、分析性能信息,并按照时间、资源、性能类型等多种维度,图形、表格等多种形式展示实时性能和历史性能。通过智能算法分析历史数据,对磁盘容量、交换机端口容量、机房机柜容量进行展示和预测分析,并根据容量可使用时间进行自定义预警。

  全面收集设备发送的Trap、Syslog、Filter Alarm等事件、日志数据,解析、提取有效信息,将其存储、展示为可统计分析的结构化数据,通过配置告警规则和场景,将异常事件、日志自动转化为告警,定位其影响范围。

  自定义配置告警阈值,并从众多的事件、日志和状态信息中分析提炼异常数据并转化为告警。在告警信息产生后,采取了自动去重、风暴抑制、关联聚合、维护期时间屏蔽、依赖屏蔽等多种智能告警降噪机制,对各类告警进行自动压缩收敛,减少无效告警,一步定位出现故障的源头设备。快速检索异常问题关联涉及的各项维度与影响区域,快速定位问题边界,直达故障根因。

  提供界面颜色、提示声、光效闪烁、信息列表、Email、短信、钉钉、企业微信、个人微信等多种通知渠道。

  根据用户日常运维工作流程自定义巡检策略,对设备的运作情况进行统计和报表生成。通过平台内人工触发或定时触发的方式,将巡检工作托管至平台自动执行,减少人工干预,实现对设备的定期快速检查。

  在实施的过程中,仅通过智能电视上的安卓浏览器访问平台,即实现运维大屏上墙,直观清晰地传达运维数据分析结果,帮助用户由宏观到微观更快地了解网络运维现状,做出更具时效性的决策。

  用户现场已在使用某厂商的动环监控系统,智和信通采取快速对接的方式打通和此系统间的数据流转。在智和信通平台内接收温度、湿度、漏水、烟感、配电、UPS、空调等设备的实时状态信息,并对异常数据来进行清洗、告警。

  在项目的实施过程中,我们清晰地感知到纳入方案中监管的IT软硬件设施支撑着用户上层众多的,如品控、防错料、文件管理、合同管理、薪资、预算、人事等业务系统,网络的状态强烈影响着用户业务系统的可用性和性能,最终也将影响整体企业的办公体验。

  通过部署智和信通综合监控运维方案实时监控用户网络与机房内大量异构的交换机、路由器、服务器、AC/AP、数据库、防火墙、虚拟机、语音网关、硬盘录像机、行为管理等设备,及时有效地发现并预警潜在问题,从而避免或减少故障带来的负面影响。同时,通过快速对接现有动环系统的方式,实现机房动力、环境系统的补充监控,保障机房运行的物理安全和环境稳定。