redis运维实践总结

目录:

  1. cacheCloud redis运维系统业务架构讲解
  2. 运维涵盖的事项:
    2.1 系统提供的能力支撑
    2.2 系统维护,排查问题,系统优化,新功能规划,等
    2.3 监控报警
    2.4 故障应急处理
  3. 指标监控
    3.1 指标分布
    3.2 指标阈值
    3.3 指标统计方式
  4. 故障处理全流程
  5. 高可用架构
    5.1 集群、哨兵
    5.2 同城双活;
    5.3 两地三中心;
    5.4 异地多活;
  6. 安全
  7. 发展方向
    7.1 上云部署
    7.3 模块管理方向研究

1. cacheCloud redis运维系统业务架构讲解

cachecloud 是搜狐开源的redis 运维管理工具,非常优秀,功能全面。
总体业务架构如下:


image.png

其核心是构建 应用 模型,关联了 实例,机器,客户端等模型,提供了伸缩性、自动运维、监控统计等功能;如下图总结:


image.png

体验路径:
http://42.192.17.74:8088/manage/login
admin
admin

2. 运维涵盖的事项:

如下我们来讲解下我们所说的运维到底涵盖了哪些事项:
2.1 系统提供的能力支撑
2.2 系统维护,排查问题,系统优化,新功能规划
2.3 监控&监控指标
2.4 故障处理

2.1 系统提供的能力支撑

功能 具体子功能
应用管理 申请,审批,部署,客户端接入,日报,下线,统计;
用户账号 账号申请,账号管理,权限管理
实例管理 实例运维,实例工具,实例监控,实例统计,实例迁移
客户端管理 客户端接入、客户端统计、客户端监控
系统功能 系统配置、工单审核等

2.2 系统维护

系统维护: 包含系统日常维护,问题排查,系统优化、新功能规划等;

2.3 监控&监控指标

  1. 监控指标梳理 --- 见后续第N姐详细讲解;
  2. 监控预警配置;

2.3 故障处理

故障处理 详见 4.故障处理 章节;

3.监控指标

从运维角度看,监控指标是我们从系统中提取的关键信息,可以帮助我们掌握系统的运行情况、发现系统问题、预判问题发生,给系统优化提供数据支撑,所以指标是非常重要的。

3.1 指标分布分类

指标分布分类

3.2 指标阈值参考范围

指标阈值参考范围

3.3 指标统计方式

指标统计方式:
3.3.1 客户端通过 改写客户端工具埋点写入,可以上报客户端的异常,命中率,慢耗时请求统计等;
3.3.2 redis实例:通过redis 的命令 info ,monitor 等;
3.3.3 机器: 通过shell脚本定时执行上报;

4. 故障处理全流程

主要从故障时间入手分析,减少故障时间:

  1. 预防规避故障发生;
    1.1 架构优化
    1.2 故障复盘优化
    1.3 日常巡检
    1.4 研发规范培训
    1.5 应用降级方案
  2. 减少故障发现时间;
    2.1 监控覆盖全
    2.2 监控阈值灵敏度调高
  3. 减少故障排查时间;
    3.1 工具支撑
    3.2 经验总结积累
  4. 减少故障恢复时间;
    4.1 应急止血
    4.2 预案执行
    4.3 工具快恢
    4.4 自动恢复


    image.png

5. 高可用架构

高可用架构,保障服务最大的可用,一般采用冗余策略实现,如复制、备份等;
有一些灾备及专业术语可以参考:

容灾标准: Share 78 容灾国际标准
https://www.chinastor.com/baike/dr/12231U152015.html
根据业务要求,实现不同业务等级要求,选择不同的容灾等级方案。

冷备、热备、温备
https://blog.csdn.net/dl674756321/article/details/103655135

分布式系统架构设计:同城灾备、同城双活、两地三中心、异地多活等概念
https://blog.csdn.net/sinat_33718563/article/details/124703630

5.1 redis 高可用架构: 集群、哨兵

        哨兵提供单机的高可用方案,在主节点down掉后,通过哨兵节点选举从节点,拉起从节点为主节点继续为业务提供服务。
        集群通过hash槽分派到不同主节点,完成节点资源的水平扩展。同时有从节点,主节点down掉后,从节点被主节点集群选举代替主节点继续工作;
        运维部署注意事项: 分布式高可用主要是抗 单节点故障,单机器故障,单机架故障, 所以在运行时,要把控好主节点,从节点之间的机房物理部署关系。 主节点和从节点尽量分散到不同主机,不通过机架上。主节点和主节点尽量部署在不同的主机和机架上。

5.2 同城灾备: 冷备、热备

        同城灾备是在 同城架设新机房,将redis 数据 通过冷备(定时同步快照),热备(实施同步)方式同步到备份机房,并且备份机房需要具备且两后能代替主机房继续工作.
拓扑架构图:


同城灾备

5.3 同城双活:

        同城双活,是在同城灾备的基础上,让备份机房的redis 也同时对外提供服务。这样做的好处:

  1. 资源利用率高: 备份机房也是资源,只是提供备份,浪费资源;
  2. 备机状态维护:一个长时间不用的备份机房,突然发生故障要启用,很难说不出问题,因为日常发布变更可能和主机房不一致,服务性能器性能配置等不一致,所以日常流量就是灾备最好的演练.
  3. 灾备切换时间快:如果入口有重试机制,可能最小维度降低主机房故障影响,流量自动走入备机房。
            备机房的redis 可以读能力,如果写需要通过同城光纤到主机房去更新。
    拓扑结构:


    同城双活

5.4 两地三中心:

        两地三中心是在同城双活的基础上,在其他城市增加C机房当备份机房,可能通过定时 冷备的方式,把redis 的数据备份出去,防止主城市发生不可抗力灾难。
拓扑结构:


两地三中心

5.5 异地多活:

        异地多活是保障类全球多节点可同时并发提供服务,并且在redis 存储层可以有全量数据。
具体做法是,需要有一个中心机房,所有其他机房都想中心机房双向同步数据,这样所有机房都会有全量数据。
流量入口:流量需要通过用户id去在入口去拆分,比如华南的用户从华南机房进入运行。 这样避免数据层 数据更新冲突。
数据同步: 每个节点有全量数据,自己产生的实时数据以及 其他机房异步同步的数据 合集。

拓扑结构:


异地多活

6. 安全

6.1 安全手段:

  1. 端口不暴露在公网
  2. 必须使用密码
  3. bind 绑定网卡
  4. 不用root权限
  5. 重命名掉危险命令: flushdb,flushall, shutdown ,sleep 等命令;
  6. 规范验证 dir + dbfile 路径及名称。

6.2 已知安全漏洞;

  1. redis 写入 ssh公钥登陆 ;
  2. redis 写入 定时任务反弹shell;
  3. redis 写入webshell 脚本;
  4. 主从复制rce ,加载定制模块;
  5. Redis Lua 沙盒绕过rce;

7. 发展方向

7.1 上云部署

       如果我们维护资源有限,又不想自己从0搭建redis 集群及管理工具,可以选择 云服务产品,比如 阿里云、腾讯云等,都提供了完善的运维管理工具、高可用的设计架构、可供选择合适经济的套餐。
阿里云-云数据库Redis版与自建Redis的对比:https://help.aliyun.com/document_detail/134776.html

如果公司有实力也可自行发布开源产品,供内外部使用。

7.2 模块管理方向研究:

       增对模块,是未来redis功能扩展的主要途径和优势,对redis 的功能扩展主要体现形式 为对模块的管理和扩展。 这样很容易就把redis 功能丰富,同时把不需要的功能不用加载。
模块管理目前的问题是存在一定的安全漏洞,未来如何给模块鉴权功能,是想研究的方向。

8总结

       我们从cacheCloud redis 运维管理系统的介绍,引出其提供的redis运维具体功能、架构讲解,让我们在总体上对redis 运维有一个了解。随后用redis运维涵盖的事项,定义了我们redis运维的日常工作分类:包含系统日常维护,问题排查,系统优化、新功能规划等; 期中监控指标尤其重要,可以方便我们掌控集群运行情况,有问题能及时发现定位问题,指标的具体化分方法及指标的提取方式做了图示说明。 故障是在所难免的,我们要从 预防故障,减少故障发现时间,减少故障影响时间,减少故障恢复时间等角度入手,来展开稳定性相关的工作,这个划分是闭环合理的。 同时从redis 的高可用上分开介绍了: redis sentinel、redis cluster 的高可用,以及涉及容灾的 同城灾备、同城双活、两地三中心、异地多活的角度来看如何部署及使用redis。redis 的安全不容小视,要做好最基本的防护,同时关注漏洞发布及时补修。
       如上是对redis运维的总结,感兴趣的小伙伴 点赞、关注、在看,谢谢支持。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,802评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,109评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,683评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,458评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,452评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,505评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,901评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,550评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,763评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,556评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,629评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,330评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,898评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,897评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,140评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,807评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,339评论 2 342