需要关心的:
1、有权限的执行人: ***
2、开通权限人:**
3、操作手册:[预案应急操作SOP] pageId=173175523)
4、执行时间、执行环境:除组件相关
5、群内告警是否及时、是否准确、监控信息关注
6、一定要记录好恢复后的pod数、注册信息、功能验证、落库信息
7、关注对应放火内容涉及的服务验证有效性
8、关注对应放火、预案内容涉及的直播模式验证有效性
预案の分享~~~~~~~~~~~~~
<colgroup><col style="width: 40px;"><col style="width: 142px;"><col style="width: 136px;"><col style="width: 644px;"><col style="width: 222px;"><col style="width: 230px;"></colgroup>
|
| 预案描述 | 准备数据 | 操作SOP | 预期效果 | 验证项 |
| 1 | 学习中心不可用,学生通过链接进入 |
3v3,1v6
| 1、老师发送给学生进课链接(https://xueyan.xueersi.com/web-live/index.html?bizId=3&planId=1752038 修改planId即可) |
1、学生可通过点击链接进入直播间
2、学生可正常参与互动
|
1、学生可通过点击链接进入直播间
2、学生可正常参与互动
|
| 2 | 老师免密登录 | | 1、直播管理后台开启降级 | 1、老师直接输入用户名和任意字符,即可登录客户端 |
1、开启后,老师直接输入用户名和任意字符,即可登录客户端
2、关闭后,老师输入用户名和任意字符会报错
|
| 3 | 客户端强制提醒公告 |
| 1、配置场次 ,对主讲、辅导、学生三端发送提醒+是否强制退出直播间 | 1、配置场次强制提醒,学生退出直播间 | 1、配置场次强制提醒,学生退出直播间 |
| 4 | rtc降级rtmp | 1v6场 |
细节流程:[图片上传失败...(image-be12f5-1693448023666)]
- 修改直播管理后台插件(1v6)属性isUseRTC=0
- 清理插件快照
- 下发irc消息,学生端拉流方式从rtc自动切换到rtmp
|
收到信令后学生端会自动切换至rtmp拉流方式,可正常听课、答互动题
部分功能有损:
- 主讲端同时发言互动拉流
- 辅导端音视频监课无法拉流
- 学生端:队友全部都显示离线;
|
- 信令下发之后学生端自动切换至rtmp拉流
- 互动作答不受影响
|
| 3v3场次 |
- 修改直播管理后台插件(3v3)属性isUseRTC=0
- 清理插件快照
- 通过聊天区/微信群/等渠道通知学生退出重进
|
可正常拉老师视频流
收到信令后学生端会自动切换至rtmp拉流方式,可正常听课、答互动题
部分功能有损:
- 主讲端同时发言
- 辅导端音视频监课无法拉流
- 学生端:队友全部都显示离线;
|
- 退出重进正常听课
- 互动作答不受影响
|
| 5 | rtctoken服务故障 | 1v6场次、3v3场次 |
- 设置redis开关,启动本地rtctoken生成模式
|
- 教师端正常推流,发起同时发言互动
- 学生端正常拉主讲流;同时发言互动
| 开启后教师正常上课、学生端正常推、拉流 |
| 6 |
rtc相关互动接口降级
| 3V3场次 |
0、学生、老师进入直播间上课
1、正常执行
2、发起投票
4、RD执行降级命令(
etcdctl put /xes_xueyan_hudong_sentinel/talcamp/switch_key '[{"resource":"POST:/v1/teacher/vote/start","strategy":0,"pkey":"","pval":"100"}]' --endpoints 10.90.71.67:2379 --endpoints 10.90.71.67:2379
)
5、进行中的“投票”正常继续进行
6、重新发起“投票”,无法发起
8、RD恢复
9、回归功能
|
0、学生、老师进入直播间上课
1、正常执行
2、发起投票
4、RD执行降级命令(
etcdctl put /xes_xueyan_hudong_sentinel/talcamp/switch_key '[{"resource":"POST:/v1/teacher/vote/start","strategy":0,"pkey":"","pval":"100"}]' --endpoints 10.90.71.67:2379 --endpoints 10.90.71.67:2379
)
5、进行中的“投票”正常继续进行
6、重新发起“投票”,无法发起
8、RD恢复
9、回归功能
|
1、受影响的互动可以正常进行互动到结束
2、结束后无法开始正常互动
|
| 7 | rtc引擎切换 |
1v6、3v3
|
1、学生、老师进入直播间上课
2、老师发起切换rtc引擎功能
|
1、学生展示老师不在直播间
2、教师退出重进
3、学生重新拉取token
| 1 老师和学生能正常恢复上课 |
| 8 | 教师端强制退出 |
| 1、配置场次 ,对主讲、辅导、发送提醒+是否强制退出直播间 |
1、配置场次强制提醒,教师退出直播间
(访问 http://media.xesv5.com/envirinment
| 1、配置场次强制提醒,教师退出直播间 |
| 9 | 教师端跳过更新 |
| 直播管理后台开启跳过更新 |
打开开关,教师端可以跳过更新
将本地api.xueersi.com的host变更成不可用ip
关闭开关,教师端不跳过更新
| 1、跳过更新 |
| 10 | 插件未下发 |
|
获取场次下发的插件
curl 127.0.0.1:19002/Livectrlcenter/GetPluginStatusV2 -d "{"bizId":3, "planId":1766512,"userType":1}"直播后台管理 → 功能控制中心 → 快照查询 → 强制删除场次快照
直播后台管理 → 工具箱 → 降级预案开关 → 强制提醒公告 → 强制学生退出重进
|
- 互动不可用
- 学生退出重进后恢复
|
- 互动不可用
- 学生退出重进后恢复
|
| 11 | 临时更改直播模式 |
| https://yach-doc-shimo.zhiyinlou.com/docs/t8gv9vHqttJYxtD6/ <直播模式修改流程规范> |
|
|
| 12 | 课堂(魔方)清除缓存 |
|
魔方id更新:可以通过直播管理后台直接刷新
魔方id未变、内容改变刷新接口:curl 127.0.0.1:19002/Classroom/AutoCache --data-raw '{"planIds":[1774791],"bizId":3}' --header 'X-Businessline-Id: 10' --header 'traceid: "sakura"'
| 重新绑定魔方时不生效
清除缓存后,重新绑定的魔方生效(id未变、内容变更清除缓存不生效 |
|
| 13 | 音视频互动问题排查 |
| 素质课程依赖音视频互动,大部分为端上直接对接rtc,使用移动端保障方案
iOS常见问题排查 |
|
|
放火の分享~~~~~
<colgroup><col><col><col><col><col><col></colgroup>
|
服务组件
|
故障场景功能描述
|
预期容灾应对策略/处理方案
|
模拟方案操作SOP
|
风险应对方案
| 预期效果 |
| --- | --- | --- | --- | --- | --- |
| zk | 服务注册与发现,服务注册的时候,会将服务名、ip等信息写到zk里面,之后服务之间可以通过zk进行通信。比如talcamp调用edc,会先从zk中取出edc的服务节点列表(ip列表),之后调用其中的一台机器。
我们每个节点是有一份内存缓存的,即储存该服务所相关所有服务的(ip信息)。也就是说talcamp,即使zk挂掉了,talcamp也能从内存缓存中取出edc的ip列表进行访问。但是zk挂掉之后,新启动的服务,就会注册失败。 |
ZK故障后,本地服务缓存注册表可用
业务正常进行
|
灰度
talcamp
1. 正常情况做互动
2.添加host使zk访问不通(容器内部 修改/etc/hosts文件)
hs-common-kafka-zk-1 /2/3
3.故障后,再重复做互动
|
| 当前服务节点可用的情况下
1.老师和学生能正常进入直播间
2.老师和学生能正常进行互动 |
| kafkaproxy | Kafka代理 | 灰度只测试能起来,线上(结合压测)kill掉的时候报错并立即恢复 |
进程kill自动拉起 kill -9 pid
|
| 1.老师和学生能正常进入直播间
2.老师和学生能正常进行互动(投票) |
| 能正常进直播间 | supervisorctl stop pan(vote服务) | supervisorctl start pan |
1、老师和学生正常进入直播间
2. 验证投票点赞功能
3. 挂调后不能发起投票点赞
3. 重启后正常
|
| tw | redis代理 | tw节点自动摘除(vote:10.20.34.94:12721
) |
tw某节点挂掉,watch变更及时更新;
学研 -TwemProxy报警群
1、老师和学生正常进入直播间
2、老师和学生正常进行答题
|
手动down,手动恢复
| 1、老师和学生正常进入直播间
2、老师和学生正常进行互动 |
| Mysql | 记录数据库操作 | 主从切换(sjhl-xy-liveedc-mysql-rw:3306
) |
MySQL主节点挂掉,切换完成后功能正常
学习研发-xxb-DB统一报警群
1、老师和学生正常进入直播间
2、老师可正常发题
| 手动down,手动恢复 |
切换完成后功能正常
1、老师和学生正常进入直播间
2、老师和学生正常进行互动
|
| 第三方接口 | 超时 | 线上有报警,灰度有日志 |
禁掉对应的域名,验证一下语音弹幕功能,和辅导老师进端,查看班级下学生列表
修改etc/hosts
chatpush.msg.xescdn.com (irc相关功能可用切流验证)
wxdwapi.xesv5.com 用户标签
openai.100tal.com
| todo:兜底 |
收到报警
|
| kafka | 息队列,做异步消息使用。例如edc答题需要储存统计信息,但是学生并不关心统计,所以将统计信息通过kafka放到异步去计算,提高同步接口性能。 | kafa挂掉 | Kafka高可用验证 | 运维操作 |
1、把kafka 单节点屏蔽掉,学生正常提交 业务正常
|
| kafka不可用,kafkaproxy存储信息到本地文件4个G,业务需要报警,人工干预 |
| 修改host文件
屏蔽掉kafka(vote)
| 故障后,收不到点赞,恢复后收到点赞 |
| etcd | 同zk,和zk区别就是使用上的区别,以及etcd是k8s上的概念,更加契合go和我们的环境 |
相关组件内部有兜底策略
Cens影响单机推送限流值
DTCS走默认配置
XYSwitch有定期http拉取兜底
Sandwich相当于无缓存
EventCenter
可能需要重启的服务(Photowall,barrage,duration,encourage,eventcenter,grouping,lucky,moderation,puzzle,usercenter,cens)
KVM上重启的服务:
(worker_cens duration puzzle worker_newduration grouping limitsend)
|
etcd集群:
10.20.81.113:2379 10.20.81.116:2379 10.20.81.120:2379 10.20.81.119:2379 10.20.81.93:2379
注意:10.20.119.77是KVM的ip
| 需要SRE老师支持 | 1.老师和学生能正常进入直播间
2.老师和学生能正常进行互动
包括(覆盖Cens/DTCS):
班级PK能量同步、回合结算 |
| redis | 故障 | 有报警,主从切换 |
主节点挂调,告警正常
学习研发-xxb-DB统一报警群
1、老师和学生正常进入直播间
2、老师和学生正常进行投票
| 手动切,手动恢复 | 1、老师和学生正常进入直播间
2、老师和学生正常进行互动 |
| 非L0服务 | 故障 | 学生老师能正常进入直播间 | 非L0服务容器数量全部减为0
服务分级统计
https://yach-doc-shimo.zhiyinlou.com/sheets/Ee32xn0WM4iZ5ak2/tHpt0/ | 手动恢复 | 老师和学生正常进入直播间 |