redis 集群

Redis Cluster采用无中心结构，每个节点保存数据和整个集群状态,每个节点都和其他所有节点连接。
前言：

   Redis3.0版本之前，可以通过[Redis](https://cloud.tencent.com/product/crs?from=10680) Sentinel（哨兵）来实现高可用 ( HA )，从3.0版本之后，官方推出了Redis Cluster，它的主要用途是实现数据分片(Data Sharding)，不过同样可以实现HA，是官方当前推荐的方案。

   在Redis Sentinel模式中，每个节点需要保存全量数据，冗余比较多，而在Redis Cluster模式中，每个分片只需要保存一部分的数据，对于内存[数据库](https://cloud.tencent.com/solution/database?from=10680)来说，还是要尽量的减少冗余。在数据量太大的情况下，故障恢复需要较长时间，另外，内存实在是太贵了。。。

   Redis Cluster的具体实现细节是采用了Hash槽的概念，集群会预先分配16384个槽，并将这些槽分配给具体的服务节点，通过对Key进行CRC16(key)%16384运算得到对应的槽是哪一个，从而将读写操作转发到该槽所对应的服务节点。当有新的节点加入或者移除的时候，再来迁移这些槽以及其对应的数据。在这种设计之下，我们就可以很方便的进行动态扩容或缩容。

image.png

Redis Cluster提供了一种运行Redis安装的方法，在该安装中，数据会在多个Redis节点之间自动分片。Redis Cluster 在分区期间还提供了一定程度的可用性，这实际上是在某些节点出现故障或无法通信时继续操作的能力。但是，如果发生较大故障（例如，大多数主服务器不可用时），集群将停止运行。Redis Cluster自动分割在多个节点之间的数据集，一部分节点出现故障或无法与集群的其余部分通信时，继续运行的能力。

创建网卡

docker network create redis --subnet 172.28.0.0/16

Redis配置

通过脚本创建6个 redis 配置

for port in $(seq 1 6); \
do \
mkdir -p ~/redis/node-${port}/conf
touch ~/redis/node-${port}/conf/redis.conf
cat << EOF > ~/redis/node-${port}/conf/redis.conf
port 6379
bind 0.0.0.0
cluster-enabled yes
cluster-config-file nodes.conf
cluster-node-timeout 5000
cluster-announce-ip 172.28.0.1${port}
cluster-announce-port 6379
cluster-announce-bus-port 16379
appendonly yes
EOF
done

port：节点端口；
bind: 可访问网络地址 0.0.0.0 指本网络所有ip
requirepass：添加访问认证；
masterauth：如果主节点开启了访问认证，从节点访问主节点需要认证；
protected-mode：保护模式，默认值 yes，即开启。开启保护模式以后，需配置 bind ip 或者设置访问密码；关闭保护模式，外部网络可以直接访问；
daemonize：是否以守护线程的方式启动（后台启动），默认 no；
appendonly：是否开启 AOF 持久化模式，默认 no；
cluster-enabled：是否开启集群模式，默认 no；
cluster-config-file：集群节点信息文件；
cluster-node-timeout：集群节点连接超时时间；
cluster-announce-ip：集群节点 IP，这里需要特别注意一下，如果要对外提供访问功能，需要填写宿主机的 IP，如果填写 Docker 分配的 IP（172.x.x.x），可能会导致外部无法正常访问集群；
cluster-announce-port：集群节点映射端口；
cluster-announce-bus-port：集群节点总线端口。
　　每个 Redis 集群节点都需要打开两个 TCP 连接。一个用于为客户端提供服务的正常 Redis TCP 端口，例如 6379。还有一个基于 6379 端口加 10000 的端口，比如 16379。

第二个端口用于集群总线，这是一个使用二进制协议的节点到节点通信通道。节点使用集群总线进行故障检测、配置更新、故障转移授权等等。客户端永远不要尝试与集群总线端口通信，与正常的 Redis 命令端口通信即可，但是请确保防火墙中的这两个端口都已经打开，否则 Redis 集群节点将无法通信。

运行容器

# 容器1
docker run -p 6371:6379 -p 16371:16379 --name redis-1 \
-v ~/redis/node-1/data:/data \
-v ~/redis/node-1/conf/redis.conf:/etc/redis/redis.conf \
-d --net redis --ip 172.28.0.11 redis:5.0.9-alpine3.11 redis-server /etc/redis/redis.conf

# 容器2
docker run -p 6372:6379 -p 16372:16379 --name redis-2 \
-v ~/redis/node-2/data:/data \
-v ~/redis/node-2/conf/redis.conf:/etc/redis/redis.conf \
-d --net redis --ip 172.28.0.12 redis:5.0.9-alpine3.11 redis-server /etc/redis/redis.conf

# 容器3
docker run -p 6373:6379 -p 16373:16379 --name redis-3 \
-v ~/redis/node-3/data:/data \
-v ~/redis/node-3/conf/redis.conf:/etc/redis/redis.conf \
-d --net redis --ip 172.28.0.13 redis:5.0.9-alpine3.11 redis-server /etc/redis/redis.conf

# 容器4
docker run -p 6374:6379 -p 16374:16379 --name redis-4 \
-v ~/redis/node-4/data:/data \
-v ~/redis/node-4/conf/redis.conf:/etc/redis/redis.conf \
-d --net redis --ip 172.28.0.14 redis:5.0.9-alpine3.11 redis-server /etc/redis/redis.conf

# 容器5
docker run -p 6375:6379 -p 16375:16379 --name redis-5 \
-v ~/redis/node-5/data:/data \
-v ~/redis/node-5/conf/redis.conf:/etc/redis/redis.conf \
-d --net redis --ip 172.28.0.15 redis:5.0.9-alpine3.11 redis-server /etc/redis/redis.conf

# 容器6
docker run -p 6376:6379 -p 16376:16379 --name redis-6 \
-v ~/redis/node-6/data:/data \
-v ~/redis/node-6/conf/redis.conf:/etc/redis/redis.conf \
-d --net redis --ip 172.28.0.16 redis:5.0.9-alpine3.11 redis-server /etc/redis/redis.conf

创建集群

# 进入容器
> docker exec -it redis-1 /bin/sh

# 进入容器后，在容器中创建集群
> redis-cli --cluster create 172.28.0.11:6379 172.28.0.12:6379 172.28.0.13:6379 172.28.0.14:6379 172.28.0.15:6379 172.28.0.16:6379 --cluster-replicas 1

>>> Performing hash slots allocation on 6 nodes...
Master[0] -> Slots 0 - 5460
Master[1] -> Slots 5461 - 10922
Master[2] -> Slots 10923 - 16383
Adding replica 172.28.0.15:6379 to 172.28.0.11:6379
Adding replica 172.28.0.16:6379 to 172.28.0.12:6379
Adding replica 172.28.0.14:6379 to 172.28.0.13:6379
M: cfb09d104f563d5dea870437cf73fac266b69a30 172.28.0.11:6379
   slots:[0-5460] (5461 slots) master
M: 47d28c2cc92ce7fafbe09b14d521a35e56a2c02c 172.28.0.12:6379
   slots:[5461-10922] (5462 slots) master
M: be4034133574260765165beac5fd1edacb63a2bd 172.28.0.13:6379
   slots:[10923-16383] (5461 slots) master
S: 74685c90c5aebdc8a035d288c962e22f98e994e8 172.28.0.14:6379
   replicates be4034133574260765165beac5fd1edacb63a2bd
S: 96b4185cc40b532b144b2ac3e2fe7213e7c13a50 172.28.0.15:6379
   replicates cfb09d104f563d5dea870437cf73fac266b69a30
S: edd2e12510d921be2193df5b461033fc0f465144 172.28.0.16:6379
   replicates 47d28c2cc92ce7fafbe09b14d521a35e56a2c02c
Can I set the above configuration? (type 'yes' to accept): yes
>>> Nodes configuration updated
>>> Assign a different config epoch to each node
>>> Sending CLUSTER MEET messages to join the cluster
Waiting for the cluster to join
....
>>> Performing Cluster Check (using node 172.28.0.11:6379)
M: cfb09d104f563d5dea870437cf73fac266b69a30 172.28.0.11:6379
   slots:[0-5460] (5461 slots) master
   1 additional replica(s)
S: 96b4185cc40b532b144b2ac3e2fe7213e7c13a50 172.28.0.15:6379
   slots: (0 slots) slave
   replicates cfb09d104f563d5dea870437cf73fac266b69a30
S: edd2e12510d921be2193df5b461033fc0f465144 172.28.0.16:6379
   slots: (0 slots) slave
   replicates 47d28c2cc92ce7fafbe09b14d521a35e56a2c02c
M: be4034133574260765165beac5fd1edacb63a2bd 172.28.0.13:6379
   slots:[10923-16383] (5461 slots) master
   1 additional replica(s)
M: 47d28c2cc92ce7fafbe09b14d521a35e56a2c02c 172.28.0.12:6379
   slots:[5461-10922] (5462 slots) master
   1 additional replica(s)
S: 74685c90c5aebdc8a035d288c962e22f98e994e8 172.28.0.14:6379
   slots: (0 slots) slave
   replicates be4034133574260765165beac5fd1edacb63a2bd
[OK] All nodes agree about slots configuration.
>>> Check for open slots...
>>> Check slots coverage...
[OK] All 16384 slots covered.

# 启动redis集群客户端（-c表示集群）
> redis-cli -c

# 查看集群信息
> cluster info

cluster_state:ok
cluster_slots_assigned:16384
cluster_slots_ok:16384
cluster_slots_pfail:0
cluster_slots_fail:0
cluster_known_nodes:6
cluster_size:3
cluster_current_epoch:6
cluster_my_epoch:1
cluster_stats_messages_ping_sent:235
cluster_stats_messages_pong_sent:225
cluster_stats_messages_sent:460
cluster_stats_messages_ping_received:220
cluster_stats_messages_pong_received:235
cluster_stats_messages_meet_received:5
cluster_stats_messages_received:460

# 集群创建好之后，11，12，13为主节点，其余为从节点
> cluster nodes

96b4185cc40b532b144b2ac3e2fe7213e7c13a50 172.28.0.15:6379@16379 slave cfb09d104f563d5dea870437cf73fac266b69a30 0 1596856234249 5 connected
edd2e12510d921be2193df5b461033fc0f465144 172.28.0.16:6379@16379 slave 47d28c2cc92ce7fafbe09b14d521a35e56a2c02c 0 1596856234146 6 connected
cfb09d104f563d5dea870437cf73fac266b69a30 172.28.0.11:6379@16379 myself,master - 0 1596856232000 1 connected 0-5460
be4034133574260765165beac5fd1edacb63a2bd 172.28.0.13:6379@16379 master - 0 1596856233000 3 connected 10923-16383
47d28c2cc92ce7fafbe09b14d521a35e56a2c02c 172.28.0.12:6379@16379 master - 0 1596856233000 2 connected 5461-10922
74685c90c5aebdc8a035d288c962e22f98e994e8 172.28.0.14:6379@16379 slave be4034133574260765165beac5fd1edacb63a2bd 0 1596856233230 4 connected

集群配置参数

Redis Cluster 通过节点使用redis.conf 文件配置集群参数. 其中有些参数顾名思义, 有些则需要稍加解释.

cluster-enabled <yes/no>: 是否开启集群功能. no表示该Redis实例将独立运行.
cluster-config-file<filename>: 注意这个选项定义的文件不是一个用户可编辑的配置文件, 而是由Redis Cluster 自动生成和修改, 用来保存集群配置(主要是每次改变后的状态)的文件, 用来节点重启时重新读取之前的配置和状态. 文件记录了集群中的其它节点及其状态, 需要保存的变量等等. 节点接收到某些讯息会重写这个文件.
cluster-node-timeout<milliseconds>: 节点从不可用(无法通讯)到被标记为失效允许的最大持续时间, 这个时间称为node timeout. 如果一个主节点无法通讯超过这个时间, 将被其从节点执行故障转移(fail over). 这个参数还有一个重要的用处, 每个节点若无法与大部分节点通讯超过这个时间, 将停止接受新的客户端请求.
cluster-slave-validity-factor<factor>: 如果一个从节点设为0, 无论其与对应的主节点断开连接多长时间, 仍然可以取代主节点成为新的主节点. 如果设为正数, 通过node timeout * factor(该参数设置的值) 得出最大允许断开连接时间(maximum disconnection time). 如果这是一个从节点, 与其对应的主节点断开连接超过这个时间的话, 将不会尝试取代而成为新的主节点. 举个例子, 如果node timeout 设为5秒, factor 设为10, 那这个从节点与其主节点断开连接超过50秒后将不会尝试取代原主节点. 注意这个参数设为任意非0值可能会出现因某主节点失效但没有从节点允许取而代之而导致集群无法运作. 这种情况下集群仅当原主节点恢复正常并重新加入到集群中才能重新提供服务.
cluster-migration-barrier<count>: 当需要从节点迁移(replica migration)时(通常出现在从节点触发故障转移成为新的主节点后, 没有从节点关联到新主节点, 做新主节点的备份), 保证迁移的节点原来关联的主节点仍然持有从节点的最小数量. (换言之, 如果该值设为2, 需要从节点迁移时, 只会从关联从节点数量大于等于3的主节点获取迁移的从节点, 保证迁移后原主节点至少关联2个从节点).
cluster-require-full-coverage<yes/no>: 默认为yes, 表示如果有任何散列槽没有分配给任意一个主节点, 集群将停止接受写入命令. 反之设为no, 集群可正常接受写入命令, 但仅有部分命令(只包含对应散列槽已被分配的key的命令)可被执行.
cluster-allow-reads-when-down<yes/no>: 默认为no, 表示当集群因主节点数量达不到最小值或有散列槽没有分配而被标记为失效时, 节点将停止所有的客户端通讯(stop serving all traffic). 这样可以避免潜在从一个不知道集群状态变化的节点读到不一致数据的危险. 设为yes则允许集群失效时仍可以由节点中读取数据. 这样既保证读操作的高可用性, 亦避免不一致写操作(inconsistent writes). 同时, 当Redis Cluster 仅包含1至2个节点, 而某个节点失效后无可用从节点替代, 且因节点数量不足, 无法自动重新分配散列槽, 则该参数设为yes可保证节点仍然可执行读操作.
对于cluster-allow-reads-when-down 配置, 原文提到第二种场景(节点数量不足)中设为yes 可提供写入操作(as it allows the nodes to continue serving writes when a master fails but automatic failover is impossible). 但根据v6.0源码中redis.conf 关于该参数的注释和该参数含义的理解, 应只保证提供读取操作.

运行测试

添加Redis缓存

会返回所添加的对应的节点，如这里返回的是12的节点

set name Stephen

-> Redirected to slot [5798] located at 172.28.0.12:6379
OK

停止容器

停止刚添加缓存的对应的redis节点

docker stop redis-2

当主节点断开之后，会自动将从节点切换为主节点，比如这里将16切换为了主节点

cluster nodes

96b4185cc40b532b144b2ac3e2fe7213e7c13a50 172.28.0.15:6379@16379 slave cfb09d104f563d5dea870437cf73fac266b69a30 0 1596856365279 5 connected
edd2e12510d921be2193df5b461033fc0f465144 172.28.0.16:6379@16379 master - 0 1596856367324 7 connected 5461-10922
cfb09d104f563d5dea870437cf73fac266b69a30 172.28.0.11:6379@16379 myself,master - 0 1596856365000 1 connected 0-5460
be4034133574260765165beac5fd1edacb63a2bd 172.28.0.13:6379@16379 master - 0 1596856366814 3 connected 10923-16383
47d28c2cc92ce7fafbe09b14d521a35e56a2c02c 172.28.0.12:6379@16379 master,fail - 1596856348392 1596856346000 2 connected
74685c90c5aebdc8a035d288c962e22f98e994e8 172.28.0.14:6379@16379 slave be4034133574260765165beac5fd1edacb63a2bd 0 1596856366301 4 connected

获取缓存

如果能取到值，表示集群搭建成功，如下，从16这个节点中取到了值

get name

-> Redirected to slot [5798] located at 172.28.0.16:6379
"stephen"

最后编辑于：2022.04.09 19:38:34

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,340评论 5赞 467
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,762评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,329评论 0赞 329
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,678评论 1赞 270
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,583评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 47,995评论 1赞 275
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,493评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,145评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,293评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,250评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,267评论 1赞 328
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,973评论 3赞 316
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,556评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,648评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,873评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,257评论 2赞 345
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,809评论 2赞 339