系统的稳定性监控

前言

在系统上线之后,或多或少总是会存在问题,有机器性能方面的问题,例如CPU Load过高,内存使用率高,RT高,线程池满,FullGC之类,也有业务逻辑的问题,例如支付系统中金额计算错误,状态校验错误等。为了尽量减少线上的影响(对用户造成困扰,甚至导致资金损失等),对系统的稳定性监控建设还是很有必要的。

从方法论的角度来看,很多事情都可以归纳为信息收集能力,信息的处理能力。稳定性也类似,需要多维的收集信息,然后根据信息发现系统的运行状态。

数据收集

不过方法论如果抽象层次过高,就变得不易落地的,因此还需要结合具体的场景细化,目标是信息维度足够详细,可以有效的辅助问题的分析。结合稳定性场景的话,分为系统与业务两部分数据。系统方面数据比较通用,通常包括机器的CPU情况(CPU使用率,LOAD等情况),内存使用率(JVM内存情况,GC的情况),磁盘使用率,网络的流量情况,以及分布式中一些中间件的情况,例如服务的RT,线程池使用情况,缓存的RT,命中率,消息的堆积情况,任务调动的执行情况等等,以及数据库的执行情况,例如慢sql等等。如果存在不同的机房还需要把机房情况也列出来,例如安全生产环境,正式环境,不同的机房,不同的单元等,这样可以有效定位到影响面。业务数据主要是需要根据具体业务进行分析,梳理出业务关注的指标,不过通用的一般有入口情况(可以分不同的场景,例如PC端,无线端,小程序端等,总量,成功率),依赖情况(依赖服务的成功率, RT等,总量),系统的错误码情况(统一错误码),同样也需要分不同的机房情况。其他具体业务指标就需要结合业务具体分析了,例如支付系统中,每个支付渠道的提交成功率,支付成功率,耗时等。对于业务指标可以根据线上真实出现过的问题或者自己假想出现一类问题,自己需要哪些信息来慢慢完善。 对于单一的应用系统通常可以比较有效的进行监控与巡检,如果是全链路的系统,就需要对链路上的系统分别建设,不过业务上的监控一般可以跨越多系统。

数据处理

数据收集好之后,另外需要了解数据背后的意义,这里就是基础知识以及经验的积累。例如当发现系统提供的服务RT上升时,应该如何排查。当支付宝渠道的支付成功数下降应该如何排查。这些也都可以通过问题处理的经验梳理处理。

服务RT上升

1. 排查依赖的系统RT是否上升,如何下游系统都是自己域内,那就以此排查,如果不是域内,就需要联系对应的owner进行排查

2. 如果依赖的服务RT没有上升,看是否请求量是否明显上涨,导致机器负载过高

3. 是否应用机器是否刚刚启动,由于jvm对代码进行编译导致时间过长;

4. 查看CPU使用率,Load,内存使用率,GC的次数,GC耗时,线程数大小,JVM堆内存使用情况

5. 如果是虚拟机,还需要查看宿主机的情况

支付成功数下跌

1. 入口是否有下跌

2. 各渠道成功数是否下跌

3. 对应的渠道收银台与支付的报错

4. 对应的成功回调,从外层到内层依次排查

其他

监控一方面可以提升问题排查的速度,也可以对于问题进行告警,避免问题的放大。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,440评论 5 467
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,814评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,427评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,710评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,625评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,014评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,511评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,162评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,311评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,262评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,278评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,989评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,583评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,664评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,904评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,274评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,856评论 2 339