凌晨,时针指向两点,我们技术保障团队一半的人手还在追查Netflix出错的原因。系统看起来运行还算正常,肯定是有哪不对但我们死活也找不着。查了一个小时,终于发现原来是数据中心里一台服务器出了问题。我们一直在查找有没有什么特别明显的问题,而且数据中心有好几万台服务器,所以把这个小淘气给忽略掉了。
连续剧《夜魔侠》里面的主角是个瞎子,但其他的感官异常灵敏。这使他可以察觉到某个人行为上的些许异常从而判断出这个人是否在撒谎。我们也开发了一个系统来发现服务器之间细微的差别,差别虽然小,但可能就是这些小的地方出问题。
本文中我们将介绍这一自动异常侦测技术和问题服务器的修复。多亏了它,不然我们恐怕得整天半夜爬起来救火。
现在运行Netflix服务的有好几万台服务器,一般出问题的比例不会超过1%。比如说有一台服务器的网络出了点问题导致用户的连接出现了延迟。虽然运行状态不理想,但在服务器健康检查中是看不出来的。
其实这种有问题的服务器还不如直接挂掉。起码挂掉的话现有的监测系统和工程师能够发现它挂了。现在它虽然没有挂,但影响到了用户的体验,我们的客服还是一样要接电话听用户的抱怨。也不知怎的,几万台服务器里总有几个要出问题。
图中不同颜色的线代表某个服务器的错误率。每条线都有峰值然后掉回到零,但紫色代表的这台服务器错误率一直高于其他服务器。从图中你能看出紫色代表的服务器有异常吗?有没有办法使用这些时序数据来实现异常侦测的自动化呢?
有一种简单的方法是设置一个阈值,错误率高于阈值就报警,但只适用于错误率特别高的服务器而且这种方法有一个问题就是所有数据都会有尖峰所以可能误差会比较大,下面的图中我们就很难找到一个合适的阈值,此外使用的阈值也需要定期进行调整因为服务器集中使用的时间和负载都可能出现变化。我们提高系统可靠性的突破点就是自动侦测那些有问题但用阈值法发现不了的服务器。
为了解决这一问题我们使用了聚类分析算法。聚类分析算法的基本原理是将相似程度高的样本归到一类。这一算法是非监督式的所以我们不需要进行数据标记和提供数据。具体的聚类分析算法有很多种,这里我们使用的是Density-Based Spatial Clustering of Applications with Noise (DBSCAN) 算法。
DBSCAN算法原理
DBSCAN算法是Martin Ester、Hans-Peter Kriegel、Jörg Sander和徐晓伟在1996年提出的,可以说是聚类分析的典型算法。DBSCAN遍历所有的数据点,如果有很多相邻的数据点的话就归为一类。为了在DBSCAN算法中衡量数据点是否相邻我们需要一个判断距离的方法。这里可视化了DBSCNAN算法运行的过程,如果感兴趣的话可以看下。
使用DBSCAN算法寻找异常服务器
要找出有异常的服务器,我们先要指定一个指标,比如之前我们提到的错误率。接下来就要收集一段时序数据并使用DBSCAN算法来进行处理找出发生异常的服务器。比如下面这幅图中涂成粉红色的就是从Netflix时序数据平台中收集的部分。
除了测量的指标,我们还需要指定将服务器标记为异常的最短持续时间。探测到异常之后就交由我们的报警系统来进行以下处理:
发邮件或者打电话联系负责人
服务器下线但不停止
收集服务器数据以供进一步调查
停止服务器等待扩展系统进行替换
参数的选择
DBSCAN算法中需要设置两个参数:Eps和MinPts。意思分别是判断数据点是否相邻的半径和定义一个集群所需要的数据点的最小个数。这里我们的参数是根据现有的异常服务器数目使用模拟退火算法逆推出来的。这种逆推的方式简化了参数的设置所以现在Netflix有好几个项目组都在用我们这个系统。
为了对这个系统的有效性进行评估,我们已经在生产环境中进行了测试。我们一共收集了一个星期的数据,然后将人工识别出的异常服务器与算法识别出的异常服务器进行了对比。下面是测试的结果
这个结果显示我们这个侦测系统虽然不是100%准确但是效果很不错了。根据我们的自身情况来说也不用完全做到一点都不差,因为就算把一个正常运行的服务器给关掉了也不会对用户体验造成多大影响,因为扩展系统马上就能加一个新的服务器进来。有这个侦测系统总是比没有强吧哈哈。
现在我们的做法是收集一段时间的数据来进行侦测。因为不是实时侦测,所以效果就跟收集数据的时间长短有关:时间太短的话可能有噪音,太长的话侦测的速度又太慢。如果要对这套系统进行改进的话,可以考虑使用实时流式处理框架比如Mantis和Apache Spark Streaming。数据流挖掘和在线机器学习方面的研究也有一些进展所以如果你想建设一个类似的系统可以考虑下。
此外在参数的设置上也可以进行改进。可以进行数据标记来组织训练数据并根据提供的训练数据来对模型进行训练,这种方法比我们现在用的逆推更好而且模型可以根据训练数据的变化来重新训练。
小结
Netflix的基础设施变得越来越庞大,将运营中的某些决定(比如这里的停止服务器)进行自动化可以提高可用性并减轻运维人员的负担。夜魔侠的服装能帮他打架,机器学习也能够提高我们技术保障团队的效率。侦测异常服务器只是自动化的一个例子,其他可以自动化的机会还有很多,就留待大家去发掘吧。
英文原文:Tracking down the Villains: Outlier Detection at Netflix(译者/刘旭坤 审校/朱正贵 责编/仲浩)
【预告】首届中国人工智能大会(CCAI 2015)将于7月26-27日在北京友谊宾馆召开。机器学习与模式识别、大数据的机遇与挑战、人工智能与认知科学、智能机器人四个主题专家云集。人工智能产品库将同步上线,预约咨询:QQ:1192936057。欢迎关注。