可视化监控大型集群,这一个工具就够了!

许多企业使用Kubernetes来快速发布新功能并提高服务的可靠性。Rancher使团队能够减少管理其云原生工作负载的操作成本——但获得这些环境的持续可见性可能是一个挑战。

在这篇文章中,我们将探讨如何利用Rancher内置支持的Prometheus和Grafana快速开始监控编排工作负载。然后,我们将向你展示如何将Datadog与Rancher集成,通过丰富的可视化、算法告警和其他功能,帮助你获得对这些临时环境更深入的可见性。

Kubernetes监控所面临的挑战

Kubernetes集群本质上是复杂和动态的。容器以极快的速度启动和关闭:在对数千家组织的超过15亿个容器进行调查时,Datadog发现,编排容器的周转速度(一天)是未编排容器的两倍(两天)。

在这种快节奏的环境中,监控你的应用程序和基础设施比以往任何时候都重要。Rancher内置支持开源监控工具(如Prometheus和Grafana),允许你从Kubernetes集群中跟踪基本的健康和资源指标。

Prometheus按照预设的时间间隔从Kubernetes集群收集指标。虽然Prometheus没有可视化选项,但你可以使用Grafana内置的仪表板来显示健康和资源指标的总体情况,例如你的pods的CPU使用情况。

然而,一些开源解决方案并不是为了监控大型、动态Kubernetes集群而设计的。此外,Prometheus要求用户学习PromQL(这是一种专门的查询语言)以分析和汇总他们的数据。

虽然Prometheus和Grafana可以为你的集群提供一定程度的洞察力,但它们不能让你看到全貌。例如,你需要连接到其中一个Rancher支持的日志解决方案,以访问你环境中的日志。而为了排除代码级问题,你还需要部署一个应用程序性能监控解决方案。

最终,为了充分可视化你的编排集群,你需要在一个平台上监控所有这些数据源——指标、跟踪和日志。通过向整个企业的团队提供详细的、可操作的数据,一个全面的监控解决方案可以帮助减少检测和解决的平均时间(MTTD和MTTR)。

image

Datadog Agent:自动发现和自动伸缩服务

为了获得Rancher解决方案中每一层的持续可见性,你需要一个专门用于实时跟踪云原生环境的监控解决方案。Datadog Agent是一款轻量级的开源软件,它可以从你的容器和主机中收集指标、跟踪和日志,并将它们转发到你的账户,以便进行可视化、分析和告警。

由于Kubernetes部署处于不断变化的状态,因此无法手动跟踪哪些工作负载在哪些节点上运行,或者你的容器在哪里运行。为此,Datadog Agent使用Autodiscovery来检测容器何时启动或关闭,并自动开始收集你的容器和它们正在运行的服务的数据,如etcd和Consul。

Kubernetes内置的自动弹性伸缩功能可以根据需求(如CPU使用量激增)自动增加或减少工作负载,从而帮助提高服务的可靠性。自动伸缩还可以通过调整基础设施的规模来帮助管理成本。

Datadog扩展了弹性伸缩这一功能,使你能够根据已经在Datadog中监控的任何指标(包括自定义指标)自动伸缩Kubernetes工作负载。这对于根据需求的波动来扩展集群是非常有用的,特别是在“双十一”这样的关键业务时期。假设你的公司是一家零售商,拥有繁忙的在线业务。当销售正在起飞时,你的Kubernetes工作负载可以根据作为活动指标的自定义指标(如结账数量)进行自动伸缩,以确保流畅的购物体验。有关使用Datadog自动伸缩Kubernetes工作负载的更多细节,请查看以下文章:

https://www.datadoghq.com/blog/autoscale-kubernetes-datadog/

Kubernetes特定的监控功能

无论你的环境是多云、多集群还是两者兼而有之,Datadog高度专业化的功能都可以帮助你实时监控你的容器化工作负载。Datadog通过从Kubernetes、Docker、云服务和其他技术导入的tag自动丰富你的监控数据。Tag为你的环境任意一层提供了持续的可见性,即使单个容器启动、停止或在主机间移动,你都能够获得可视化。例如,你可以搜索所有共享一个标签(例如,它们正在运行的服务名称)的容器,然后使用另一个标签(例如,可用性区域)来分解它们在不同区域的资源使用情况。

Datadog可以收集超过120个Kubernetes指标,帮助你从控制平面健康状况跟踪到pod级CPU限制的一切。所有这些监控数据都可以直接在应用中访问,而无需使用查询语言。

Datadog提供了几个功能来帮助你探索和可视化容器基础设施的数据。Container Map(datadoghq.com/blog/container-map/ )提供了一个Kubernetes环境的鸟瞰图,并允许你通过任何标签组合来过滤和分组容器,如docker_image、host和kube_deployment。

你还可以根据任何资源指标的实时值对容器进行颜色编码,如系统CPU或RSS内存。这让你可以一目了然地快速发现资源争夺问题,例如,如果一个节点比其他节点消耗了更多的CPU。

image

实时容器视图(Live Container view)可以显示基础架构中每个容器的流程级系统指标——以两秒的粒度绘制。由于 CPU 利用率等指标可能非常不稳定,这种高度的颗粒度确保了重要的峰值不会在噪音中消失。

image

Container Map和 “实时容器 "视图均允许你使用任意组合的标签(如镜像名称或云提供商)对容器进行过滤和排序。要了解更多细节,你还可以单击以检查在任何单个容器上运行的进程,并查看从该容器收集的所有指标、日志和跟踪,获取这些信息只需点击几下。这可以帮助你调试问题,并确定是否需要调整资源的配置。

通过Datadog网络性能监控(NPM),你可以跟踪整个Kubernetes部署的实时网络流量,并快速调试问题。从本质上讲,Docker容器只受制于可用的CPU和内存量。因此,单个容器可能会使网络饱和并使整个系统瘫痪。

Datadog可以帮助你轻松隔离消耗最多网络吞吐量的容器,并通过导航到该服务的相关日志或请求跟踪来确定可能的根本原因。

Datadog+Rancher协同工作

通过Rancher的Datadog Helm chart,你的团队可以在几分钟内开始监控他们的Kubernetes环境。Datadog与Rancher协同工作,可以让你使用Rancher管理不同的协调环境,并部署Datadog来实时监控、排除故障和自动扩展环境。

此外,Datadog的算法监控引擎Watchdog可以发现并提醒团队成员注意性能异常(如延迟峰值或高错误率)。这使得团队能够在潜在问题(例如容器重启率异常高)升级之前解决问题。

我们已经向你展示了Datadog如何帮助你获得Rancher环境的全面可见性。通过Datadog,工程师可以使用APM来识别单个请求中的瓶颈,并准确定位代码级问题,收集和分析整个基础设施中每个容器的日志等。通过在一个平台上统一指标、日志和跟踪,Datadog消除了切换上下文或工具的需要。因此,可以加快团队故障排除工作流程,并充分利用Rancher管理大规模动态集群的全部潜力。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,902评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,037评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,978评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,867评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,763评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,104评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,565评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,236评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,379评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,313评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,363评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,034评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,637评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,719评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,952评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,371评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,948评论 2 341