Redis性能问题排查指引

Redis性能问题排查手段

1. 定位问题点

当发生业务系统访问Redis慢或者超时异常时，可能的原因有以下三个：

客户端问题： 如果客户端使用的是Java版本的Lettuce SDK，如果业务应用的CPU使用率比较高时，由于不能及时处理Redis返回的命令，也会报Command Timeout的异常。可以查看业务应用的CPU使用率情况
网络问题： 可以从客户端进行ping操作验证网络是否存在延迟

Redis性能问题： 通过redis-cli工具判断Redis是否存在性能问题

# 判断Redis整体是否存在性能问题，正常情况下如果是本机执行avg应小于1（原理是发送ping命令，计算返回时长，无需输入密码）
redis-cli -h "127.0.0.1" -p "6379" --latency-history
min: 0, max: 1, avg: 0.11 (1323 samples) -- 15.00 seconds range
min: 0, max: 1, avg: 0.10 (1330 samples) -- 15.00 seconds range
min: 0, max: 1, avg: 0.12 (1321 samples) -- 15.01 seconds range
min: 0, max: 1, avg: 0.10 (1319 samples) -- 15.01 seconds range
min: 0, max: 1, avg: 0.10 (1321 samples) -- 15.00 seconds range
min: 0, max: 1, avg: 0.10 (1319 samples) -- 15.01 seconds range

2. 定位Redis具体性能问题

如果通过Redis性能问题： 通过redis-cli工具判断Redis是否存在性能问题定位到Redis存在性能问题，则可以通过以下手段定位具体原因

查看Redis内存占用

通过redisl-cli连接到Redis，执行info memory命令，重点查看used_memory_rss_human、total_system_memory_human、maxmemory_human几个参数

maxmemory_human如果为0，表示不限制Redis的内存使用，通常不建议这样配置
当used_memory_human_rss达到maxmemory（如果maxmemory配置为0，则参考total_system_memory_human）的90%时容易产生性能问题
确保maxmemory_human < total_system_memory_human

redis-cli -h "127.0.0.1" -p "6379" -a ""
127.0.0.1:6379> info memory
# Memory
used_memory:904768
# 当used_memory_human达到maxmemory（如果maxmemory配置为0，则参考total_system_memory_human）的80%时容易产生性能问题
used_memory_human:883.56K
used_memory_rss:7266304
used_memory_rss_human:6.93M
used_memory_peak:964504
used_memory_peak_human:941.90K
used_memory_peak_perc:93.81%
used_memory_overhead:863304
used_memory_startup:842624
used_memory_dataset:41464
used_memory_dataset_perc:66.72%
allocator_allocated:1803176
allocator_active:7864320
allocator_resident:8912896
total_system_memory:2085294080
total_system_memory_human:1.94G
used_memory_lua:37888
used_memory_lua_human:37.00K
used_memory_scripts:0
used_memory_scripts_human:0B
number_of_cached_scripts:0
# maxmemory配置为0，表示不限制Redis的内存使用，当used_memory_human较大时，容易产生性能问题
maxmemory:0
maxmemory_human:0B

查看Redis的命令数

通过redisl-cli连接到Redis，执行info stats命令，重点查看instantaneous_ops_per_sec参数
- 由于Redis支持的最高Ops与key、value的大小有很大的关系，可以参考下图的Redis性能判断Redis是否达到性能瓶颈
```
redis-cli -h "127.0.0.1" -p "6379" -a ""
127.0.0.1:6379> info stats
# Stats
instantaneous_ops_per_sec:0
```

image.png

查看是否存在磁盘性能问题

如果Redis配置了AOF持久化，并且appendfsync设置为everysec，即每秒持久化磁盘一次。如果磁盘性能存在问题就会影响Redis的读写性能。

查看Redis的日志文件是否存在如下内容：
```
Asynchronous AOF fsync is taking too long (disk is busy?). Writing the AOF buffer without waiting for fsync to complete, this may slow down Redis.
```
解决办法：临时设置appendfsync参数为no，如果磁盘的性能太差，即使appendfsync设置为no，不再打印fsync slow的日志，也可能会影响Redis性能，可以通过后续介绍的latency-monitor定位到。
```
redis-cli -h "127.0.0.1" -p "6379" -a ""
127.0.0.1:6379> config set appendfsync no
```

查看连接数

当Redis的连接数超过最大连接数时会对新的连接进行排队或者直接拒绝，需确认connected_clients小于maxclients

redis-cli -h "127.0.0.1" -p "6379" -a ""
127.0.0.1:6379> info clients
# Clients
connected_clients:1
cluster_connections:0
maxclients:10000
client_recent_max_input_buffer:16
client_recent_max_output_buffer:0
blocked_clients:0
tracking_clients:0
clients_in_timeout_table:0

查看是否有慢查询（时间复杂度较高的命令）

redis-cli -h "127.0.0.1" -p "6379" -a ""
127.0.0.1:6379> slowlog get 100
1) 1) (integer) 0
   2) (integer) 1668745341
   3) (integer) 1001516
   4) 1) "debug"
      2) "sleep"
      3) "1"
   5) "127.0.0.1:40420"
   6) ""

检查操作系统是否存在性能问题

# 判断Redis所在的服务器是否存在性能问题，这个指标需要与正常的运行的Redis示例所在服务器进行对比才行，如果参数是正常运行Redis的两倍左右，就说明操作系统性能存在问题
# 该命令只是简单的运行一些加减运算的命令，必须在Redis服务器上执行，所以用于判断操作系统的是否存在固有延迟
redis-cli --intrinsic-latency 60
Max latency so far: 1 microseconds.
Max latency so far: 65 microseconds.
Max latency so far: 107 microseconds.
Max latency so far: 448 microseconds.

开启延迟监控（对尖峰延迟尤其有效）

开启latency-monitor监控，该功能对于定位存在延迟尖峰的场景尤其有用（即Redis响应慢的现象是间歇性或偶发的）
```
# 开启latency-monitor监控（单位是毫秒）
redis-cli -h "127.0.0.1" -p "6379" -a ""
CONFIG SET latency-monitor-threshold 100
```
Redis是对事件的延迟进行统计，可以通过以下命令查询是否存在延迟事件
```
# 显示每个事件的最新一次时间戳和耗时
latency latest
1) 1) "command"           # Event name
   2) (integer) 1439479413  # Unix timestamp
   3) (integer) 381   # Latency of latest event
   4) (integer) 6802    # All time maximum latency

# 显示指定事件的历史时间戳和耗时
latency history command
1) 1) (integer) 1425038819   # Unix timestamp
   2) (integer) 383      # Execution time (in ms)
2) 1) (integer) 1425038944
   2) (integer) 4513
   
# 清理latency记录
latency reset

# 图形化的方式展示指定事件的历史统计
latency graph command
```
事件列表参考：
- command: regular commands.
- fast-command: O(1) and O(log N) commands.
- fork: the fork(2) system call.
- rdb-unlink-temp-file: the unlink(2) system call.
- aof-fsync-always: the fsync(2) system call when invoked by the appendfsync allways policy.
- aof-write: writing to the AOF - a catchall event for write(2) system calls.
- aof-write-pending-fsync: the write(2) system call when there is a pending fsync.
- aof-write-active-child: the write(2) system call when there are active child processes.
- aof-write-alone: the write(2) system call when no pending fsync and no active child process.
- aof-fstat: the fstat(2) system call.
- aof-rename: the rename(2) system call for renaming the temporary file after completing BGREWRITEAOF.
- aof-rewrite-diff-write: writing the differences accumulated while performing BGREWRITEAOF.
- active-defrag-cycle: the active defragmentation cycle.
- expire-cycle: the expiration cycle.
- eviction-cycle: the eviction cycle.
- eviction-del: deletes during the eviction cycle.

参考：

线上 Redis 搞炸了，反应巨慢，怎么破？ - 知乎 (zhihu.com)

Understanding the Top 5 Redis Performance Metrics (datadoghq.com)

How to Collect Redis Metrics | Datadog (datadoghq.com)

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,905评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,140评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,791评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,483评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,476评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,516评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,905评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,560评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,778评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,557评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,635评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,338评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,925评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,898评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,142评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,818评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,347评论 2赞 342

Redis性能问题排查指引

Redis性能问题排查指引

目录

Redis性能问题排查手段

1. 定位问题点

2. 定位Redis具体性能问题

参考：

推荐阅读更多精彩内容