Prometheus 学习笔记

Prometheus官方文档

入门指导

  • 手把手教你构建Prometheus系统
  • Prometheus Server
  • Node Exporter
  • The expression language
  • Instrument code(使用Prometheus客户端库构建应用代码,通过Prometheus监控应用)
  • Dashboard
  • Alerting
  • Pushgateway
  • 提出一些问题,这些问题有助于你对Prometheus的使用和理解
  • 安排一些任务,通过完成这些任务(没有答案),帮助你使用Prometheus系统
  • 文章相对比较老(2016.08.05, Prometheus < 2.0),不过对入门来说很有参考价值

这个文章相对比较老,不过可以作为基于Docker部署Prometheus,Node Exporter,Grafana的入门参考:

  • 使用Docker部署相关Prometheus组件
  • Prometheus,Node Exporter,Grafana的简单书用
  • 例子中Prometheus的版本是2.0之前的,有些命令参数已经不再使用了

博客

必读。这篇博客对Prometheus整体做了一个概括性的、比较详细的介绍(Prometheus起源于SoundCloud):

  • Prometheus的前世今生
  • Pormetheus的设计哲学
  • 文章相对比较老(2015.01.26),有些内容不适于Prometheus 2.0

Prometheus

  • 对监控系统来说,关键特性等级:可靠性>准确性>一致性>持久性。监控系统最重要的是可用性,没必要依赖集群
  • 集群更看中一致性,而不是可靠性;并且集群会有各种各样的问题,很难保证可靠性
  • 集群更适用于一个节点性能无法满足需要的应用,而Prometheus十分高效,不需要集群
  • Prometheus的高可用性是通过运行多个相同的Prometheus实例来实现的,实例之间独立
  • 多个独立Prometheus实例,会造成数据有轻微的不一致。但是这个不一致,并不影响监控、报警的正确性;也不会影响监控数据的准确性。所以这个不一致,无所谓
  • 警报需要处理警报中的噪声
  • 一天之后的监控数据针对监控和报警来说,不会再有意义;当然性能分析等等除外
  • 基础设施和服务down,不可避免,不用过于担心;需要有个强壮的监控系统
  • 高可用
  • 至少两个同样的Prometheus服务
  • 使用Alertmanager本身提供的集群功能
  • 配置所有的Prometheus实例与所有的Alertmanager通信
  • <relabel_config> 配置是通过修改 label 来控制某些 target 不被抓取
  • <metric_relabel_configs> 配置是通过修改 label 来控制某些时间序列不被抓取
  • <relabel_config> 配置是通过修改 label 来控制某些 alert 不被发送给Alertmanager
  • <relabel_config> 配置是通过修改 label 来控制某些时间序列不被写入远端
  • relabel行为中,drop and keep行为(特殊)类似与过滤器,如果label不匹配,相应数据会被丢弃;而其它的relabel行为,会继续处理数据(不论匹配与否)
  • 一个单点的Prometheus能够处理百万级别的时间序列;也就是:上千个服务,每个服务上千个样本,采集间隔10s
  • 如果你有多个数据中心,希望能够看到“全局”级别的聚合数据,需要使用Prometheus的联盟功能
  • 如果你的数据量很大(一个Prometheus性能无法满足),需要根据数据进行分区(分片);比如根据前端、后端、主机等,每一个分区一个Prometheus,再构成Prometheus联盟
  • 如果数据量再大;再分,再联盟

Alert

  • 通过例子简单介绍Prometheus警报规则语法
  • 应用Prometheus predict_linear() 函数作警报预测
  • Simple linear regression
  • 监控、告警实例是否down (通过 up metrics)
  • 监控、告警down实例的百分比
  • 简单使用Blackbox Exporter (这个Exporter是个好东西)
  • 简单使用relabel功能
  • 发送通知给webhook(使用webhook处理警报信息)

Alertmanager与之前版本的区别

  • 通过路由规则处理警报,之前仅仅是列表(功能更强大)
  • 可以通过模版定制化警报的通知(有默认配置)
  • 多条警报可以聚合成一条通知
  • 配置Alertmanager,通过Gmail发送警报邮件
  • Alertmanager默认的警报信息模版,信息不够详细
  • 警报路由匹配时,当匹配成功,其它路由规则就不会再处理该警报(一般情况)
    *continue 可以改变上述默认行为,匹配成功之后会继续匹配之后的规则,直至匹配成功
  • 警报阈值,除了静态配置外,还可以通过 recording rules 或者 exporter 生成阈值时间序列(包含标签)
  • 阈值时间序列可以通过 group_left 操作与相应的时间序列匹配
  • 上述方法可以与 use labels to direct email notifications 结合使用(alertmanager可以更具label数据,动态处理)
  • A handy feature of the Alertmanager is that almost all notification fields are templatable. This can be used to route emails based on labels.
  • 前提,目标地址(比如,邮件目的地址)需要存在于标签集中:
    mymetric{job="myjob",email_to="foo@example.org",instance="host1"}
  • Alertmanager需要配合做两件事情:1、通过分组,确保每个目标地址(比如,邮件地址)有对应的通知;2、通过警报模版丰富通知内容,发送给目标地址
  • Prometheus 2.0的一个主要改变是对 staleness 的处理
  • Prometheus 2.0允许对消失的 targets 和 时间序列进行跟踪
  • 上述变化会影响警报规则的创建,比如,如何监控实例是否down:用avg_over_time(up{job="jobname"} [5m]) < 0.9,替换up{job="jobname"} < 1。否则会引起误报或者不报
  • 监控应用频繁的重启
  • Prometheus客户端库会提供 process_start_time_seconds metric,表示进程的开始时间(如果进程重启,这个时间序列的值就会变化)
  • avg without(instance)(changes(process_start_time_seconds[1h])):一个job一个小时内重启的平均次数
  • 如果进程重启频率高于采集频率,上述数据会丢失部分(不过对监控没有影响)
  • 上述监控方法依赖于:目标的label集不变(尽管应用重启)
  • 带宽的限制
  • 额外的工作
  • 通知中可以包含dashboard的链接,而不是曲线图本身
  • 如何正确的使用警报系统是一门艺术,少而精
  • 警报不能太少(无法有效的监控),也不能太多(噪声太多,无法有效的抓住问题重点)
  • 即要有当前状态警报,也要有预测警报
  • 严重问题的警报、需要立即修复问题的警报
  • 关于用户体验的警报,是非常重要的警报
  • 在线服务警报:alerting on conditions like high latency and error rates as high up in the stack as possible
  • 针对容量警报(比如,磁盘):alerts to detect when you will run out of space that will lead to an outage.
  • 批量任务警报:alert when a job has not succeeded recently enough
  • 警报通知需要有相应dashboard的链接,为oncall提供数据支持
  • 监控监控系统本身
  • 使用 Black Exporter 监控服务宕机的时长

Metrics

  • 由于 up 不是来源于 scrape 本身, metric_relabel_configs 不适用于它
  • 只要 service discovery 能够返回 targetup的值就是 1(不论真实的实例是否真的存在)
  • 有类似于 upmetrics,以 scrape_ 开头
  • 除了 up,有时有必要使用 Blackbox Exporter 来检测 target 的健康情况

Alert补充资料

一个有着7年oncall经验的人(Rob Ewaschuk)对警报系统使用的经验总结。

  • 警报分类(类型、级别,通知方式)
  • 警报规则创建指导
  • 警报处理的完整流程

思考

  • How to have alerts to ensure that Prometheus servers, Alertmanagers, PushGateways, and other monitoring infrastructure are available and running correctly?
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容