畅谈一下告警

一、为什么要告警

一个业务系统维护了很长时间了,指不定什么时候会出现问题。不过有些系统也是依赖微信、支付宝平台的,大平台都有自身的监控和告警能力帮忙分析和定位商户系统问题,但并不是所有场景都能涵盖到。所以个人负责的业务模块需要制定合理的告警机制,系统发生故障要第一时间知道,而不是被通知。

二、告警指标

常见的指标有请求量、失败量、平均耗时等,其他指标可以根据业务自身的特点来提取上报。

 三、告警阈值

告警的目的是出问题了,能够马上主动发现问题,简单的问题甚至可以在被投诉和其他人发现前就能修复了

如果一个系统上报的指标多了,经常会发生没有设置告警阈值的情况。

尤其是对于后来新增的监控指标,尤其要注意是否设置监控阈值。

可以针对请求量、失败量,失败率,平均耗时,耗时中位数设置合理的阈值,触发阈值后发送告警通知。

四、告警处理

我们要明确告警的目的,告警是为了及时发现问题,然后快速处理并恢复业务系统。告警信息要明确,不要误告警。对于简单且能快速处理的问题,可以允许间断的发送告警;而对于相对复杂并且很长时间才能解决的问题,持续的告警就没有意义,这时需要屏蔽告警,问题修复之后再重新恢复告警机制。因此告警模块的灵活性配置是很重要的,根据业务场景可以配置不通的策略,另外也要支持屏蔽和恢复能力。

五、告警收敛

复杂的业务系统往往都是多实例部署的,如果每个实例都发生问题然后开始发送告警信息,那么技术人员会收到很多条无意义的信息,不利于告警信息分析。这时就要考虑对告警信息进行收集分析了,保证每个业务场景的告警信息同一时间内只是发送一次。及时多实例告警信息做了收集分析,故障没有及时处理,告警信息会持续发送,这是就要固定周期内发送告警信息,甚至可以通过配置进行屏蔽掉。告警一定要在系统故障的时候及时发出来,避免无意义的发送,否则技术人员会产生抵触心里,甚至手机端直接屏蔽。

六、合理阈值

告警模块要支持不同的业务场景设置不同的告警阈值,如果是一个固定的阈值可能会引入一系列的误告警。灵活的配置,配置中心的引入是少不了了。设置阈值时,要考虑同一个业务场景不同的时间段是不是需要设置不同的阈值,不同的业务场景需要设置不同的阈值。比如某个特殊业务场景,晚上的请求量比白天的请求量多;比如有的业务场景接口平均响应时间比其他的都长;比如某些业务场景在某个时间段不进行告警分析。

七、告警设计

成功量和失败量的统计可以通过内存变量(AtomicLong)进行统计,或者使用RxJava提供的window操作符会在时间间隔内缓存统计结果,类似于buffer缓存一个list集合,区别在于window将这个结果集合封装成了observable。

使用RxJava可以很方便统计一个窗口内服务的成功量、失败量、延迟分布情况。

像常用的中间件(redis、kafka、rocketmq、es)相关操作都可以通过切面利用RxJava统计健康和延迟情况,然后汇总到告警模块进行分析并触发预警。

八、总结

希望本文章的告警设计思路可以给读者带来启发。一个优秀的告警系统,可以减少人力监控,也是自动化运维的一种手段。对于技术人员来说,自己写的业务代码出现问题一定要自己第一时间知道,而不是被人通知。如果现有的告警能力不能满足你的要求,一定要从长远的角度出发,制定告警方案,而不是把大部分精力都放在日志查询上。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,271评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,725评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,252评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,634评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,549评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,985评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,471评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,128评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,257评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,233评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,235评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,940评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,528评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,623评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,858评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,245评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,790评论 2 339

推荐阅读更多精彩内容