为什么现代企业无法真正实现组合式监控?

【编者按】本文作者为 Sahil Khanna,文中介绍了现代企业常用的监控工具与模式,同时指出了其中的不足,以及更为完善的解决方案。本文系 OneAPM工程师编译整理
  我喜欢参加行业活动和会议,因为在这些地方可以见到财富 1000 强的 IT 领导人,而且我总喜欢问他们同一个问题——“你们都在使用哪些工具?” 这是个很有趣的问题,因为从他们的回答中我发现,大型 IT 企业目前所使用的工具数量多得惊人,而且我问过的所有人都在使用不同的方式配置环境。
  虽然大部分企业正在使用 Splunk、APPDynamics 或 NewRelic、OneAPM,但是他们使用这些工具支持业务服务的方式截然不同,这可能是因为不同企业的每一项业务服务和出现的问题类型都完全不同。下图中的工具是我在数百遍的询问中经常听到的一部分:

此处输入图片的描述
此处输入图片的描述

  我还喜欢问的第二个问题是——“你是怎样把各个监控工具里获得的信息联系起来的?” 从他们的回答中我发现两个共同点,分别与传统企业和数字化企业的监控配置有关,而且这两个共同点解释了一个更加严重的问题——为什么客户总是比监控工具更早地发现问题。

传统企业还在用遗留顶层管理系统(MoM)死撑

我说的“传统企业”,主要是指金融服务、管理服务供应商、制造业、电信公司和联邦等企业组织。虽然你在看这篇文章的时候,它们可能正在经历重大的数字化转型,但是这些企业的 IT 环境、流程和许多工具实在是太“传统”了,因为它们的工具基本上都购买于上个世纪末和本世纪初,当时 IBM、HP 和 CA 等 MoM 供应商为运营管理整合了企业级套装。这些套装从概念上而言在当时很先进,但实际上只是各种不同层级的工具集成的“大杂烩”。它们可以执行基础的降噪和事件关联,但是是通过基于规则的方式进行的,也就是说,你必须在问题发生前就预测到这个问题。可以想象这种要求会产生怎样的后果。而且,这些套装还很难配置和管理,要想使它们正常工作,还得再投入几百万美元和几百个工时。
  现在,转眼到了 2016 年,这些工具依旧是传统企业的核心 IT 管理层,究其原因,是由“厂商锁定”这个堪称天才的商业策略导致的。虽然传统企业已经认识到新一代监控工具的价值,也花了巨资购买最好的工具集来提升服务质量。但是,与这些企业的IT运维团队交流时,我发现他们显然没有充分利用各个工具,而只是将一部分事件流发送至 IBM Netcool 或 CA Spectrum 之类的工具中供运维团队查看。他们被迫使用很小一部分事件,只能获得有限的可见性,因为遗留 MoM 没有以下功能:
  1)扩展2)集成新工具(没有标准的 API)3)自动适应基础设施更改(需要手动建立或维护规则)
  下图是我最近交流过的一个大型传统企业的监控图示。

此处输入图片的描述
此处输入图片的描述

  他们有40多种监控工具、1000 多个应用程序,每天生成约 200,000 个事件。他们使用 CA Spectrum 作为顶层管理系统,但是由于可扩展性和集成的限制,Spectrum 每天只能从 Splunk、Keynote 和Solarwinds 接收约 30,000 个事件。也就是说,事件覆盖率只有 15%!那这样的配置是怎样为他们工作的呢?好吧,对此他们表示,只有 7% 至9% 的事件是工具检测出来的,其他的都是客户发现的。你可以想像这些企业面临过多少次 SLA 违规、收入损失以及与日俱增的 IT 成本问题。
  要想更深入地了解和解决这个问题,推荐阅读 Intellyx 的杰森?彭博写的“受够了遗留监控工具?该换成可组合的 IT 监控了!”。

缺乏管理层的数字化企业也好不到哪儿去

我认为,“数字化”就是软件即服务(SaaS)、媒体、电子商务、零售、在线、独立软件开发商,等等。与传统企业的关键不同点在于,这些公司从诞生起就是数字化的,而且从一开始就没在遗留 MoM 解决方案上花过一分钱。这个特点使它们天生就具有灵活性和敏捷性,但同时也存在严重的缺陷。
  我交流过的数字化企业为了满足自身独特的需求,通常都构建了一个庞大且最好的监控生态系统,但是却没有管理层将系统结合起来,现在他们开始感受到以下问题的痛苦了:
  1. 没有重复数据删除功能。可能你觉得删除重复数据不重要,但是你得明白,即使事件总量只减少 25%,运维团队的查看量也会减少 25%。这就大大减少了工作量,显著提高了生产力。
  2. 没有关联功能。如果没有一个工具自动告诉你,有两个或多个事件实际上与同一个问题相关,那么你可能会让不同的团队独自研究同一个问题,因而浪费了宝贵的时间。
  虽然 IBM、CA、BMC 和 HP 的遗留工具需要繁重的人工劳动才能实现这些功能,但是没有管理层的数字化企业则完全与关联功能带来的益处失之交臂。
  据我所见,数字化企业普遍使用电子邮件充当管理控制工具。下图是我曾交流过的一家数字化企业的监控示意图。

此处输入图片的描述
此处输入图片的描述

  该企业使用电子邮件作为中央事件管理控制台。由于他们的支持团队很小,于是决定每天只发送来自 SiteConfidence Sythetics 的 500个事件,至于其他事件则全部忽略。这家数字化企业每天生成约 40,000 个事件,也就是说,他们只查看了约1%的事件。支持团队会仔细查看最关键的事件,人工删除重复数据并关联事件或告警,然后再适当地挖掘其他工具。但是这个过程极度耗费人力,而且又相当低效,最为严重的是,他们缺乏对整个 IT 环境的可见性。当被问到他们的监控工具是怎样发现问题的时候,他们告诉我“大多数”事件都是客户而不是工具发现的。
  在某些特定情况下,有些公司已经形成了自己的管理解决方案,但是我很少听到它们的负责人表示对服务质量有绝对的把握。

现代事件管理工具可实现组合式监控

次时代数据监控与管理工具,如 OneAPM Cloudinsight 产品,可以帮助创业企业、服务提供商等实现最好的IT基础组件与其他数据监控,每天处理数十亿事件,以获得整个 IT 环境的完全可见性。从本质上而言,次时代监控管理工具可以实现一体化监控与管理,可以让你通过标签管理任意数据,机器,从而确保最优的服务质量和性能。
  本文系 OneAPM 工程师编译整理。想阅读更多技术文章,请访问 OneAPM 官方技术博客

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,783评论 5 472
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,396评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,834评论 0 333
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,036评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,035评论 5 362
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,242评论 1 278
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,727评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,376评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,508评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,415评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,463评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,140评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,734评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,809评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,028评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,521评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,119评论 2 341

推荐阅读更多精彩内容

  • 【编者按】本文作者为 Sahil Khanna,文中介绍了现代企业常用的监控工具与模式,同时指出了其中的不足,以及...
    OneAPM阅读 719评论 0 1
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,294评论 25 707
  • 作为 Zabbix 骨灰级粉丝,一直以来对第三方监控(APM)都是拒绝的。一来觉得收费,二来担心数据被人所知,三来...
    OneAPM阅读 1,487评论 1 3
  • 爱有很多种表达方式,不一定非得要陪在身边。 每天通电话,或者隔两天打一个,有什么心事就和爸妈说说,可能不能解决问题...
    云朵在飞阅读 229评论 0 2
  • 今日总结突然写不出,其实是因为担心是公开的,怕写的不好,所以无从下笔,再想想真正会点开看的又有几人?为何不继续持续...
    Hi_张阅读 117评论 0 0