使用 TC 和 Netem 模拟网络异常

参考:https://juejin.cn/post/6844903673760350221

在某些情况下,我们需要模拟网络很差的状态来测试软件能够正常工作,比如网络延迟、丢包、乱序、重复等。Linux 系统下强大的流量控制工具 TC 能很轻松地完成这个需求,TC 命令行工具是 IProute2 软件包中的软件,可以根据系统版本自行安装。
这篇文章介绍的功能主要是通过 Netem 这个内核模块来实现的。Netem 是 Network Emulator 的缩写,关于更多功能以及参数的详细解释可以参阅 TC-Netem 的 Man Page。
Netem 与 TC 简要说明
Netem 是 Linux 2.6 及以上内核版本提供的一个网络模拟功能模块。该功能模块可以用来在性能良好的局域网中,模拟出复杂的互联网传输性能。例如:低带宽、传输延迟、丢包等等情况。使用 Linux 2.6 (或以上) 版本内核的很多 Linux 发行版都默认开启了该内核模块,比如:Fedora、Ubuntu、Redhat、OpenSuse、CentOS、Debian 等等。
TC 是 Linux 系统中的一个用户态工具,全名为 Traffic Control (流量控制)。TC 可以用来控制 Netem 模块的工作模式,也就是说如果想使用 Netem 需要至少两个条件,一是内核中的 Netem 模块被启用,另一个是要有对应的用户态工具 TC 。

TC 能做的事情很多,除了本文介绍的还有带宽控制、优先级控制等等。这些功能是通过类似 Netem 的内核模块实现的。
    

网络状况模拟
网络状况欠佳从用户角度来说就是下载东西慢(网页一直加载、视频卡顿、图片加载很久等),从网络报文角度来看却有很多情况:比如:延迟(某个机器发送报文很慢)、丢包(发送的报文在网络中丢失需要一直重传)、乱序(报文顺序错乱,需要大量计算时间来重新排序)、重复(报文有大量重复,导致网络拥堵)、错误(接收到的报文有误只能丢弃重传)等。
对于这些情况,都可以用 Netem 来模拟。需要注意的是,Netem 是直接作用于指定网卡上的,也就是说所有从该网卡发送出去的包都会收到配置参数的影响,所以最好搭建临时的虚拟机进行测试。
在下面的例子中 add 表示为指定网卡添加 Netem 配置,change 表示修改已经存在的 Netem 配置到新的值,replace 表示替换已经存在的 Netem 配置的值。如果要删除网卡上的 Netem 配置可以使用 del。
$ tc qdisc del dev enp0s5 root复制代码
1. 模拟延迟传输
最简单的例子是所有的报文延迟 100ms 发送:
$ tc qdisc add dev enp0s5 root netem delay 100ms复制代码
如果你想在一个局域网里模拟远距离传输的延迟可以用这个方法,比如实际用户访问网站延迟为 101 ms,而你测试环境网络交互只需要 1ms,那么只要添加 100ms 额外延迟就行。
$ tc qdisc replace dev enp0s5 root netem delay 100ms

$ ping dev-node-02
PING dev-node-02 (192.168.100.212) 56(84) bytes of data.
64 bytes from dev-node-02 (192.168.100.212): icmp_seq=1 ttl=64 time=102 ms
64 bytes from dev-node-02 (192.168.100.212): icmp_seq=2 ttl=64 time=100 ms
64 bytes from dev-node-02 (192.168.100.212): icmp_seq=3 ttl=64 time=100 ms
^C
--- dev-node-02 ping statistics ---
4 packets transmitted, 4 received, 0% packet loss, time 3000ms
rtt min/avg/max/mdev = 100.293/101.053/102.795/1.061 ms复制代码
如果在网络中看到非常稳定的时延,很可能是某个地方加了定时器,因为网络线路很复杂,传输过程一定会有变化。因此实际情况网络延迟一定会有变化的,Netem 也考虑到这一点,提供了额外的参数来控制延迟的时间分布。完整的参数列表为:
DELAY := delay TIME [ JITTER [ CORRELATION ]]]
[ distribution { uniform | normal | pareto | paretonormal } ]复制代码
除了延迟时间 TIME 之外,还有三个可选参数:

        JITTER:抖动,增加一个随机时间长度,让延迟时间出现在某个范围。
    
    
        CORRELATION:相关,下一个报文延迟时间和上一个报文的相关系数。
    
    
        distribution:分布,延迟的分布模式。可以选择的值有 uniform、 normal、pareto 和 paretonormal。
    

先说说 JITTER,如果设置为 20ms,那么报文延迟的时间在 100ms  ± 20ms 之间,具体值随机选择:
$ tc qdisc replace dev enp0s5 root netem delay 100ms 20ms

ping dev-node-02 PING dev-node-02 (192.168.100.212) 56(84) bytes of data. 64 bytes from dev-node-02 (192.168.100.212): icmp_seq=1 ttl=64 time=108 ms 64 bytes from dev-node-02 (192.168.100.212): icmp_seq=2 ttl=64 time=107 ms 64 bytes from dev-node-02 (192.168.100.212): icmp_seq=3 ttl=64 time=92 ms ......复制代码 CORRELATION 指相关性,因为网络状况是平滑变化的,短时间里相邻报文的延迟应该是近似的而不是完全随机的。这个值是个百分比,如果为 100%,就退化到固定延迟的情况;如果是 0% 则退化到随机延迟的情况。 tc qdisc replace dev enp0s5 root netem delay 100ms 20ms 50%
ping dev-node-02 PING dev-node-02 (192.168.100.212) 56(84) bytes of data. 64 bytes from dev-node-02 (192.168.100.212): icmp_seq=1 ttl=64 time=104 ms 64 bytes from dev-node-02 (192.168.100.212): icmp_seq=2 ttl=64 time=109 ms 64 bytes from dev-node-02 (192.168.100.212): icmp_seq=5 ttl=64 time=101 ms ......复制代码 报文的分布和很多现实事件一样都满足某种统计规律,比如最常用的正态分布。因此为了更逼近现实情况,可以使用 distribution 参数来限制它的延迟分布模型。比如让报文延迟时间满足正态分布: tc qdisc replace dev enp0s5 root netem delay 100ms 20ms distribution normal
ping dev-node-02 PING dev-node-02 (192.168.100.212) 56(84) bytes of data. 64 bytes from dev-node-02 (192.168.100.212): icmp_seq=1 ttl=64 time=82.0 ms 64 bytes from dev-node-02 (192.168.100.212): icmp_seq=2 ttl=64 time=82.3 ms 64 bytes from dev-node-02 (192.168.100.212): icmp_seq=3 ttl=64 time=98.1 ms ......复制代码 这样的话,大部分的延迟会在平均值的一定范围内,而很少接近出现最大值和最小值的延迟。 其他分布方法包括:uniform、pareto 和 paretonormal,这些分布方法感兴趣的读者可以自行了解。对于大多数情况,随机在某个时间范围里延迟就能满足需求的。 2. 模拟丢包率 另一个常见的网络异常是因为丢包,丢包会导致重传,从而增加网络链路的流量和延迟。Netem 的 loss 参数可以模拟丢包率,比如发送的报文有 50% 的丢包率(为了容易用 ping 看出来,所以这个数字我选的很大,实际情况丢包率可能比这个小很多,比如 0.5%): tc qdisc change dev enp0s5 root netem loss 50%
ping dev-node-02 PING dev-node-02 (192.168.100.212) 56(84) bytes of data. 64 bytes from dev-node-02 (192.168.100.212): icmp_seq=1 ttl=64 time=0.290 ms 64 bytes from dev-node-02 (192.168.100.212): icmp_seq=4 ttl=64 time=0.308 ms 64 bytes from dev-node-02 (192.168.100.212): icmp_seq=5 ttl=64 time=0.221 ms 64 bytes from dev-node-02 (192.168.100.212): icmp_seq=8 ttl=64 time=0.371 ms 64 bytes from dev-node-02 (192.168.100.212): icmp_seq=9 ttl=64 time=0.315 ms复制代码 可以从 icmp_seq 序号看出来大约有一半的报文丢掉了,和延迟类似丢包率也可以增加一个相关系数,表示后一个报文丢包概率和它前一个报文的相关性。 tc qdisc change dev enp0s5 root netem loss 0.3% 25%复制代码
这个命令表示,丢包率是 0.3%,并且当前报文丢弃的可能性和前一个报文有 25% 相关。默认的丢包模型为随机,loss 也支持 state(4-state Markov 模型) 和 gemodel(Gilbert-Elliot 丢包模型) 两种模型的丢包,因为两者都相对复杂,这里就不再详细介绍了。
需要注意的是,丢包信息会发送到上层协议。如果是 TCP 协议,那么 TCP 会进行重传,所以对应用来说看不到丢包。这时候要模拟丢包,需要把 loss 配置到网桥或者路由设备上。
3. 模拟包重复
报文重复和丢包的参数类似,就是重复率和相关性两个参数,比如随机产生 50% 重复的包:
tc qdisc change dev enp0s5 root netem duplicate 50% ping dev-node-02
PING dev-node-02 (192.168.100.212) 56(84) bytes of data.
64 bytes from dev-node-02 (192.168.100.212): icmp_seq=2 ttl=64 time=0.284 ms
64 bytes from dev-node-02 (192.168.100.212): icmp_seq=3 ttl=64 time=0.420 ms
64 bytes from dev-node-02 (192.168.100.212): icmp_seq=3 ttl=64 time=0.447 ms (DUP!)
64 bytes from dev-node-02 (192.168.100.212): icmp_seq=4 ttl=64 time=0.437 ms
64 bytes from dev-node-02 (192.168.100.212): icmp_seq=4 ttl=64 time=0.515 ms (DUP!)
......复制代码
4. 模拟包损坏
报文损坏和报文重复的参数也类似,比如随机产生 2% 损坏的报文(在报文的随机位置造成一个比特的错误)。
tc qdisc change dev enp0s5 root netem corrupt 2% ping dev-node-02
......
PING dev-node-02 (192.168.100.212) 56(84) bytes of data.
64 bytes from dev-node-02 (192.168.100.212): icmp_seq=3 ttl=64 time=0.362 ms
Warning: time of day goes back (-4611686018427387574us), taking countermeasures.
Warning: time of day goes back (-4611686018427387454us), taking countermeasures.
64 bytes from dev-node-02 (192.168.100.212): icmp_seq=4 ttl=64 time=0.000 ms
wrong data byte #53 should be 0x35 but was 0xb5

16 10 11 12 13 14 15 16 17 18 19 1a 1b 1c 1d 1e 1f 20 21 22 23 24 25 26 27 28 29 2a 2b 2c 2d 2e 2f

48 30 31 32 33 34 b5 36 37

64 bytes from dev-node-02 (192.168.100.212): icmp_seq=5 ttl=64 time=0.476 ms
......复制代码
5. 模拟包乱序
网络传输并不能保证顺序,传输层 TCP 会对报文进行重组保证顺序,所以报文乱序对应用的影响比上面的几种问题要小。
报文乱序和前面的参数不太一样,因为上面的报文问题都是独立的。针对单个报文做操作就行,而乱序则牵涉到多个报文的重组。模拟报乱序一定会用到延迟(因为模拟乱序的本质就是把一些包延迟发送),Netem 有两种方法可以做。
第一种是固定的每隔一定数量的报文就乱序一次。
# 每 5 个报文(第 5、10、15…报文)会正常发送,其他的报文延迟 100ms。
tc qdisc change dev enp0s5 root netem reorder 50% gap 3 delay 100ms ping -i 0.05 dev-node-02
PING dev-node-02 (192.168.100.212) 56(84) bytes of data.
64 bytes from dev-node-02 (192.168.100.212): icmp_seq=9 ttl=64 time=2.55 ms
64 bytes from dev-node-02 (192.168.100.212): icmp_seq=8 ttl=64 time=100 ms
64 bytes from dev-node-02 (192.168.100.212): icmp_seq=10 ttl=64 time=100 ms
64 bytes from dev-node-02 (192.168.100.212): icmp_seq=11 ttl=64 time=100 ms
64 bytes from dev-node-02 (192.168.100.212): icmp_seq=13 ttl=64 time=0.245 ms
64 bytes from dev-node-02 (192.168.100.212): icmp_seq=12 ttl=64 time=102 ms
64 bytes from dev-node-02 (192.168.100.212): icmp_seq=14 ttl=64 time=1.00 ms
......复制代码
要想看到 ping 报文的乱序,我们要保证发送报文的间隔小于报文的延迟时间 100ms,这里用 -i 0.05 把发送间隔设置为 50ms。
第二种方法的乱序是相对随机的,使用概率来选择乱序的报文。
tc qdisc change dev enp0s5 root netem reorder 50% 15% delay 300ms ping -i 0.05 dev-node-02
PING dev-node-02 (192.168.100.212) 56(84) bytes of data.
64 bytes from dev-node-02 (192.168.100.212): icmp_seq=4 ttl=64 time=0.423 ms
64 bytes from dev-node-02 (192.168.100.212): icmp_seq=7 ttl=64 time=0.250 ms
64 bytes from dev-node-02 (192.168.100.212): icmp_seq=2 ttl=64 time=301 ms
64 bytes from dev-node-02 (192.168.100.212): icmp_seq=3 ttl=64 time=301 ms
64 bytes from dev-node-02 (192.168.100.212): icmp_seq=9 ttl=64 time=0.238 ms
64 bytes from dev-node-02 (192.168.100.212): icmp_seq=5 ttl=64 time=301 ms
......复制代码
50% 的报文会正常发送,其他报文(1-50%)延迟 300ms 发送,这里选择的延迟很大是为了能够明显看出来乱序的结果。
6. 其它技巧

        查看已经配置的网络条件
    

该命令将查看并显示 enp0s5 网卡的相关传输配置。
$ tc qdisc show dev enp0s5复制代码
推荐两个工具
Netem 在 TC 中算是比较简单的模块,如果要实现流量控制或者精细化的过滤需要更复杂的配置。这里推荐两个小工具,它们共同的特点是用法简单,能满足特定的需求,而不用自己去倒腾 TC 的命令。
1. Wondershaper
项目地址:https://github.com/magnific0/wondershaper
Netem 只能模拟网络状况,不能控制带宽,Wondershaper 则能完美解决这个问题。Wondershaper 实际上是一个 SHELL 脚本,它使用 TC 来进行流量速率调整,使用 QoS 来处理特定的网络接口。外发流量通过放在不同优先级的队列中,来达到限制传出流量速率的目的;而传入流量通过丢包的方式来达到速率限制的目的。
安装 Wondershaper

    
        在 Ubuntu / Debian 下安装 Wondershaper
    

$ sudo apt-get install wondershaper复制代码

    
        在 Fdora / CentOS / RHEL 中安装 Wondershaper
    

# 需启用 EPEL 仓库

sudo yum install wondershaper复制代码 使用 Wondershaper Wondershaper 的使用非常简单,只有三个参数:网卡名、下行限速、上行限速。比如要设置网卡下载速度为 200kb/s,上传速度为 150kb/s: sudo wondershaper enp0s5 200 150复制代码
如果你要将速率限制消除,可以通过运行下面的命令来达到目的。
sudo wondershaper clear enp0s5复制代码 2. Comcast 项目地址:https://github.com/tylertreat/comcast Comcast 是一个跨平台的网络模拟工具,旨在其他平台(OSX、Windows、BSD)也能提供类似网络模拟的功能。 它的使用也相对简单: comcast --device=enp0s5 --latency=250
--target-bw=1000
--default-bw=1000000
--packet-loss=10%
--target-addr=8.8.8.8,10.0.0.0/24
--target-proto=tcp,udp,icmp
--target-port=80,22,1000:2000复制代码

        --device 说明要控制的网卡为 enp0s5。
    
    
        --latency 指定 250ms 的延迟。
    
    
        --target-bw指定目标带宽。
    
    
        --default-bw 指定默认带宽。
    
    
        --packet-loss 指定丢包率。
    
    
        --target-addr、 --target-proto、--target-port 参数指定在满足这些条件的报文上实施上面的配置。
    

总结
可以看出,TC 的 Netem 模块主要用来模拟各种网络的异常状况,本身并没有提供宽带限制的功能,而且一旦在网卡上配置了 Netem,该网卡上所有的报文都会受影响,如果想精细地控制部分报文,需要用到 TC 的 filter 功能。
参考资料
http://www.google.comhttp://t.cn/RsUAV3yhttp://t.cn/RsUwmQXhttp://t.cn/RsUVqk0
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,681评论 5 474
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,710评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,623评论 0 334
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,202评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,232评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,368评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,795评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,461评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,647评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,476评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,525评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,226评论 3 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,785评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,857评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,090评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,647评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,215评论 2 341

推荐阅读更多精彩内容