报警大屏通过大数据对告警事件的分析,可以得到一些有价值的IT运行规律和运行趋势。例如运维中一些重大事件的发生与具体业务系统的关系;重大事件与时间点的关系,不同业务系统发生故障之间潜在的关联关系,不同事件来源之间的互相影响关系和分析,并以监控数据动态,形成视化页面的报警大屏。
从而监控大屏,全盘展示IT运行状态,减轻运维人员的重复性工作量,提高IT系统排错速度,加速运维知识学习积累。
1.解决运维过程中可固化的、例行且操作步骤复杂的工作项较多,通过人工编写脚本,执行命 令等操作,效率低、风险大、缺乏审核机制。
2.解决部分数据分析报告手工统计,时间慢,无法满足业务需求。
3.提高可靠性,减轻运维人员繁琐的手动任务。
4.减少人为错误,降低 IT 运维成本,提高运维效率。
5.提高运维效率,需最大限度的节约人力成本、降低管理风险、提升运维效率和服务满意 度等维度提升运维效能,缩短联系和等待服务台的时间损耗。
报警大屏分别由6大板块组成:应用响应时间排行top10、资产运行情况、报警等级分布、资产分类异常统计、资产报警top10、问题详细页面,6大板块。
image.png
应用响应时间排行top10:应用名称、响应速度形成排行。
image.png
资产运行情况:资产总数、报警资产数量、维保到期资产的数据,计算出运行健康率。
image.png
报警等级分布:未分类、信息、报警、一般严重、严重、灾难形成统计图表。
image.png
资产分类异常统计:一目了然的获得资产情况,资产是否正常/异常。
image.png
资产报警top10:一目了然的获得报警数据情况,资产报警数量形成报警排行。
image.png
详细问题板块:由时间、告警IP、持续时间、问题、严重性组成;还可以选择想要查看的IP进行搜索,根据报警等级选择查找。
image.png
image.png
点击告警源
image.png
查看告警内容;
资产名称、资产分类、维保日期、所属网格、网格经理、联系电话、运行时间、系统、总内存、CPU使用率、内存使用率、磁盘、总空间、已用空间、使用率、已用内存、交换空间、缓存、CPU折线图、内存折线图、线程/进程折线图、网络宽带折线图、每秒上下文切换次数折线图、磁盘读写速率折线图、时间、IP地址、主机、问题、严重性、持续时间、一目了然获得详细信息。
image.png
image.png
点击
image.png
查看报警信息:报警词云、报警态势、详细的时间、IP地址、主机、问题、严重性、持续时间。
image.png
作者:易道云控
链接:https://www.jianshu.com/p/dd5f73c8f3c8
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。