2020-05-08 如何通过网络遥测（Network Telemetry）技术实现精细化网络运维

转：http://www.ruijie.com.cn/fa/xw-hlw/61072/

1.概述

针对面向HPC业务的下一代数据中心网络，基于INT和gRPC的Network Telemetry技术可以实现业务端到端的网络流量可视化，打破“网络黑盒”，为精细化网络运维提供整体的解决方案和必要的技术支撑。

2.业务挑战

首先，接入带宽从传统的10Gbps升级到25Gbps/100Gbps，需要基础网络提供高转发能力保障业务的高可用。

其次，基于RDMA（Remote Direct Memory Access，远程直接内存访问）无损以太网技术的普遍应用，实现了计算节点到存储节点的微秒级延时，大大优化端到端的业务转发性能，而这也意味着对网络运维提出了更高的挑战——如何在大规模、复杂的HPC(High Performance Computing)网络中实现更加精细的流量可视、可控？如何面向业务实现端到端的秒级故障定位，并为网络的持续优化提供精准的数据支撑？

为了确保业务的高可靠，基于Scale out方式实现的分布式计算和存储应用（Hadoop/ Map reduce/HDFS）得到了大规模使用

例如，当一台Master节点向一组Slave节点发起一个计算任务请求时，所有Slave节点几乎会同时返回计算结果数据，对于Master节点来说就产生了一个“微突发流”。

瞬时的多打一导致出接口报文拥塞，出接口缓存用完后会基于尾部丢弃机制进行丢包，应用监测到丢包后发起TCP重传，造成数据端到端延时的进一步恶化，严重影响业务体验。

3.解决方案（定位丢包点、转发路径上的时延）

针对网络丢包引起的业务故障，需要网络监控系统快速定位网络中哪台交换机的哪个端口因缓存不足导致了丢包。同时，重要业务端到端时延超出预期时，也需要定位流量转发路径上每个节点的转发时延。

总结起来，需要网络监控系统实现如下能力：

●快速定位哪台交换机的哪个端口发生丢包；

●实时监控每台交换机的Buffer使用情况；

●端到端时延可以定位到具体设备和链路。

通过在交换机中集成gRPC应用，定义灵活的数据格式以及数据推送的阈值来实现交换机自身状态的主动推送能力，可以实现周期性推送交换机Buffer Usage、CPU、Memory等信息给监控服务器。

当发生Buffer不足导致丢包，也会实时通知给监控服务器，实现网络运行数据的可视化。

gRPC的出现很好的解决了实时数据无法有效传给监控服务器的问题。

INT的出现解决了转发路径和转发时延不可见的问题。

在报文中增加出、入设备端口的时间，这样就能计算出报文在每个设备的处理时长Cost.

以及路径。