redis运维实践总结

cacheCloud redis运维系统业务架构讲解
运维涵盖的事项:
2.1 系统提供的能力支撑
2.2 系统维护，排查问题，系统优化，新功能规划，等
2.3 监控报警
2.4 故障应急处理
指标监控
3.1 指标分布
3.2 指标阈值
3.3 指标统计方式
故障处理全流程
高可用架构
5.1 集群、哨兵
5.2 同城双活;
5.3 两地三中心;
5.4 异地多活;
安全
发展方向
7.1 上云部署
7.3 模块管理方向研究

1. cacheCloud redis运维系统业务架构讲解

cachecloud 是搜狐开源的redis 运维管理工具，非常优秀，功能全面。
总体业务架构如下：

image.png

其核心是构建应用模型，关联了实例，机器，客户端等模型，提供了伸缩性、自动运维、监控统计等功能；如下图总结：

image.png

体验路径：
http://42.192.17.74:8088/manage/login
admin
admin

2. 运维涵盖的事项:

如下我们来讲解下我们所说的运维到底涵盖了哪些事项:
2.1 系统提供的能力支撑
2.2 系统维护，排查问题，系统优化，新功能规划
2.3 监控&监控指标
2.4 故障处理

2.1 系统提供的能力支撑

功能	具体子功能
应用管理	申请，审批，部署，客户端接入，日报，下线，统计;
用户账号	账号申请，账号管理，权限管理
实例管理	实例运维，实例工具，实例监控，实例统计，实例迁移
客户端管理	客户端接入、客户端统计、客户端监控
系统功能	系统配置、工单审核等

2.2 系统维护

系统维护：包含系统日常维护，问题排查，系统优化、新功能规划等;

2.3 监控&监控指标

监控指标梳理 --- 见后续第N姐详细讲解;
监控预警配置;

2.3 故障处理

故障处理详见 4.故障处理章节；

3.监控指标

从运维角度看，监控指标是我们从系统中提取的关键信息，可以帮助我们掌握系统的运行情况、发现系统问题、预判问题发生，给系统优化提供数据支撑，所以指标是非常重要的。

3.1 指标分布分类

指标分布分类

3.2 指标阈值参考范围

指标阈值参考范围

3.3 指标统计方式

指标统计方式：
3.3.1 客户端通过改写客户端工具埋点写入，可以上报客户端的异常，命中率，慢耗时请求统计等；
3.3.2 redis实例：通过redis 的命令 info ，monitor 等;
3.3.3 机器：通过shell脚本定时执行上报;

4. 故障处理全流程

主要从故障时间入手分析，减少故障时间：

预防规避故障发生;
1.1 架构优化
1.2 故障复盘优化
1.3 日常巡检
1.4 研发规范培训
1.5 应用降级方案
减少故障发现时间；
2.1 监控覆盖全
2.2 监控阈值灵敏度调高
减少故障排查时间;
3.1 工具支撑
3.2 经验总结积累
减少故障恢复时间；
4.1 应急止血
4.2 预案执行
4.3 工具快恢
4.4 自动恢复

image.png

5. 高可用架构

高可用架构，保障服务最大的可用，一般采用冗余策略实现，如复制、备份等;
有一些灾备及专业术语可以参考：

容灾标准： Share 78 容灾国际标准
https://www.chinastor.com/baike/dr/12231U152015.html
根据业务要求，实现不同业务等级要求，选择不同的容灾等级方案。

冷备、热备、温备
https://blog.csdn.net/dl674756321/article/details/103655135

分布式系统架构设计：同城灾备、同城双活、两地三中心、异地多活等概念
https://blog.csdn.net/sinat_33718563/article/details/124703630

5.1 redis 高可用架构: 集群、哨兵

哨兵提供单机的高可用方案，在主节点down掉后，通过哨兵节点选举从节点，拉起从节点为主节点继续为业务提供服务。
集群通过hash槽分派到不同主节点，完成节点资源的水平扩展。同时有从节点，主节点down掉后，从节点被主节点集群选举代替主节点继续工作;
运维部署注意事项：分布式高可用主要是抗单节点故障，单机器故障，单机架故障，所以在运行时，要把控好主节点，从节点之间的机房物理部署关系。主节点和从节点尽量分散到不同主机，不通过机架上。主节点和主节点尽量部署在不同的主机和机架上。

5.2 同城灾备: 冷备、热备

同城灾备是在同城架设新机房，将redis 数据通过冷备（定时同步快照），热备（实施同步）方式同步到备份机房，并且备份机房需要具备且两后能代替主机房继续工作.
拓扑架构图：

同城灾备

5.3 同城双活：

同城双活，是在同城灾备的基础上，让备份机房的redis 也同时对外提供服务。这样做的好处：

资源利用率高: 备份机房也是资源，只是提供备份，浪费资源；
备机状态维护：一个长时间不用的备份机房，突然发生故障要启用，很难说不出问题，因为日常发布变更可能和主机房不一致，服务性能器性能配置等不一致，所以日常流量就是灾备最好的演练.
灾备切换时间快：如果入口有重试机制，可能最小维度降低主机房故障影响，流量自动走入备机房。
备机房的redis 可以读能力，如果写需要通过同城光纤到主机房去更新。
拓扑结构：

同城双活

5.4 两地三中心：

两地三中心是在同城双活的基础上，在其他城市增加C机房当备份机房，可能通过定时冷备的方式，把redis 的数据备份出去，防止主城市发生不可抗力灾难。
拓扑结构：

两地三中心

5.5 异地多活：

异地多活是保障类全球多节点可同时并发提供服务，并且在redis 存储层可以有全量数据。
具体做法是，需要有一个中心机房，所有其他机房都想中心机房双向同步数据，这样所有机房都会有全量数据。
流量入口：流量需要通过用户id去在入口去拆分，比如华南的用户从华南机房进入运行。这样避免数据层数据更新冲突。
数据同步：每个节点有全量数据，自己产生的实时数据以及其他机房异步同步的数据合集。

拓扑结构：

异地多活

6. 安全

6.1 安全手段:

端口不暴露在公网
必须使用密码
bind 绑定网卡
不用root权限
重命名掉危险命令： flushdb,flushall, shutdown ，sleep 等命令;
规范验证 dir + dbfile 路径及名称。

6.2 已知安全漏洞;

redis 写入 ssh公钥登陆 ;
redis 写入定时任务反弹shell;
redis 写入webshell 脚本;
主从复制rce ，加载定制模块;
Redis Lua 沙盒绕过rce;

7. 发展方向

7.1 上云部署

如果我们维护资源有限，又不想自己从0搭建redis 集群及管理工具，可以选择云服务产品，比如阿里云、腾讯云等，都提供了完善的运维管理工具、高可用的设计架构、可供选择合适经济的套餐。
阿里云-云数据库Redis版与自建Redis的对比：https://help.aliyun.com/document_detail/134776.html

如果公司有实力也可自行发布开源产品，供内外部使用。

7.2 模块管理方向研究：

增对模块，是未来redis功能扩展的主要途径和优势，对redis 的功能扩展主要体现形式为对模块的管理和扩展。这样很容易就把redis 功能丰富，同时把不需要的功能不用加载。
模块管理目前的问题是存在一定的安全漏洞，未来如何给模块鉴权功能，是想研究的方向。

8总结

我们从cacheCloud redis 运维管理系统的介绍，引出其提供的redis运维具体功能、架构讲解，让我们在总体上对redis 运维有一个了解。随后用redis运维涵盖的事项，定义了我们redis运维的日常工作分类：包含系统日常维护，问题排查，系统优化、新功能规划等; 期中监控指标尤其重要，可以方便我们掌控集群运行情况，有问题能及时发现定位问题，指标的具体化分方法及指标的提取方式做了图示说明。故障是在所难免的，我们要从预防故障，减少故障发现时间，减少故障影响时间，减少故障恢复时间等角度入手，来展开稳定性相关的工作，这个划分是闭环合理的。同时从redis 的高可用上分开介绍了： redis sentinel、redis cluster 的高可用，以及涉及容灾的同城灾备、同城双活、两地三中心、异地多活的角度来看如何部署及使用redis。redis 的安全不容小视，要做好最基本的防护，同时关注漏洞发布及时补修。
如上是对redis运维的总结，感兴趣的小伙伴点赞、关注、在看，谢谢支持。