fanghuo & yu'an

需要关心的:

1、有权限的执行人: ***

2、开通权限人:**

3、操作手册:[预案应急操作SOP] pageId=173175523)

4、执行时间、执行环境:除组件相关

5、群内告警是否及时、是否准确、监控信息关注

6、一定要记录好恢复后的pod数、注册信息、功能验证、落库信息

7、关注对应放火内容涉及的服务验证有效性

8、关注对应放火、预案内容涉及的直播模式验证有效性

预案の分享~~~~~~~~~~~~~

<colgroup><col style="width: 40px;"><col style="width: 142px;"><col style="width: 136px;"><col style="width: 644px;"><col style="width: 222px;"><col style="width: 230px;"></colgroup>
|
| 预案描述 | 准备数据 | 操作SOP | 预期效果 | 验证项 |
| 1 | 学习中心不可用,学生通过链接进入 |

3v3,1v6

| 1、老师发送给学生进课链接(https://xueyan.xueersi.com/web-live/index.html?bizId=3&planId=1752038 修改planId即可) |

1、学生可通过点击链接进入直播间

2、学生可正常参与互动

|

1、学生可通过点击链接进入直播间

2、学生可正常参与互动

|
| 2 | 老师免密登录 | | 1、直播管理后台开启降级 | 1、老师直接输入用户名和任意字符,即可登录客户端 |

1、开启后,老师直接输入用户名和任意字符,即可登录客户端

2、关闭后,老师输入用户名和任意字符会报错

|
| 3 | 客户端强制提醒公告 |
| 1、配置场次 ,对主讲、辅导、学生三端发送提醒+是否强制退出直播间 | 1、配置场次强制提醒,学生退出直播间 | 1、配置场次强制提醒,学生退出直播间 |
| 4 | rtc降级rtmp | 1v6场 |

细节流程:[图片上传失败...(image-be12f5-1693448023666)]

  1. 修改直播管理后台插件(1v6)属性isUseRTC=0
  2. 清理插件快照
  3. 下发irc消息,学生端拉流方式从rtc自动切换到rtmp

|

收到信令后学生端会自动切换至rtmp拉流方式,可正常听课、答互动题

部分功能有损:

  1. 主讲端同时发言互动拉流
  2. 辅导端音视频监课无法拉流
  3. 学生端:队友全部都显示离线;

|

  1. 信令下发之后学生端自动切换至rtmp拉流
  2. 互动作答不受影响

|
| 3v3场次 |

  1. 修改直播管理后台插件(3v3)属性isUseRTC=0
  2. 清理插件快照
  3. 通过聊天区/微信群/等渠道通知学生退出重进

|

可正常拉老师视频流

收到信令后学生端会自动切换至rtmp拉流方式,可正常听课、答互动题

部分功能有损:

  1. 主讲端同时发言
  2. 辅导端音视频监课无法拉流
  3. 学生端:队友全部都显示离线;

|

  1. 退出重进正常听课
  2. 互动作答不受影响

|
| 5 | rtctoken服务故障 | 1v6场次、3v3场次 |

  1. 设置redis开关,启动本地rtctoken生成模式

|

  1. 教师端正常推流,发起同时发言互动
  2. 学生端正常拉主讲流;同时发言互动

| 开启后教师正常上课、学生端正常推、拉流 |
| 6 |

rtc相关互动接口降级

| 3V3场次 |

0、学生、老师进入直播间上课

1、正常执行
2、发起投票
4、RD执行降级命令(
etcdctl put /xes_xueyan_hudong_sentinel/talcamp/switch_key '[{"resource":"POST:/v1/teacher/vote/start","strategy":0,"pkey":"","pval":"100"}]' --endpoints 10.90.71.67:2379 --endpoints 10.90.71.67:2379
)
5、进行中的“投票”正常继续进行
6、重新发起“投票”,无法发起
8、RD恢复
9、回归功能

|

0、学生、老师进入直播间上课

1、正常执行
2、发起投票
4、RD执行降级命令(
etcdctl put /xes_xueyan_hudong_sentinel/talcamp/switch_key '[{"resource":"POST:/v1/teacher/vote/start","strategy":0,"pkey":"","pval":"100"}]' --endpoints 10.90.71.67:2379 --endpoints 10.90.71.67:2379
)
5、进行中的“投票”正常继续进行
6、重新发起“投票”,无法发起
8、RD恢复
9、回归功能

|

1、受影响的互动可以正常进行互动到结束

2、结束后无法开始正常互动

|
| 7 | rtc引擎切换 |

1v6、3v3

|

1、学生、老师进入直播间上课

2、老师发起切换rtc引擎功能

|

1、学生展示老师不在直播间

2、教师退出重进

3、学生重新拉取token

| 1 老师和学生能正常恢复上课 |
| 8 | 教师端强制退出 |
| 1、配置场次 ,对主讲、辅导、发送提醒+是否强制退出直播间 |

1、配置场次强制提醒,教师退出直播间

(访问 http://media.xesv5.com/envirinment

| 1、配置场次强制提醒,教师退出直播间 |
| 9 | 教师端跳过更新 |
| 直播管理后台开启跳过更新 |

打开开关,教师端可以跳过更新

将本地api.xueersi.com的host变更成不可用ip
关闭开关,教师端不跳过更新

| 1、跳过更新 |
| 10 | 插件未下发 |
|

  1. 获取场次下发的插件
    curl 127.0.0.1:19002/Livectrlcenter/GetPluginStatusV2 -d "{"bizId":3, "planId":1766512,"userType":1}"

  2. 直播后台管理 → 功能控制中心 → 快照查询 → 强制删除场次快照

  3. 直播后台管理 → 工具箱 → 降级预案开关 → 强制提醒公告 → 强制学生退出重进

|

  1. 互动不可用
  2. 学生退出重进后恢复

|

  1. 互动不可用
  2. 学生退出重进后恢复

|
| 11 | 临时更改直播模式 |
| https://yach-doc-shimo.zhiyinlou.com/docs/t8gv9vHqttJYxtD6/ <直播模式修改流程规范> |
|
|
| 12 | 课堂(魔方)清除缓存 |
|

魔方id更新:可以通过直播管理后台直接刷新

魔方id未变、内容改变刷新接口:curl 127.0.0.1:19002/Classroom/AutoCache --data-raw '{"planIds":[1774791],"bizId":3}' --header 'X-Businessline-Id: 10' --header 'traceid: "sakura"'

| 重新绑定魔方时不生效
清除缓存后,重新绑定的魔方生效(id未变、内容变更清除缓存不生效 |
|
| 13 | 音视频互动问题排查 |
| 素质课程依赖音视频互动,大部分为端上直接对接rtc,使用移动端保障方案
iOS常见问题排查 |
|
|

放火の分享~~~~~

<colgroup><col><col><col><col><col><col></colgroup>
|

服务组件

|

故障场景功能描述

|

预期容灾应对策略/处理方案

|

模拟方案操作SOP

|

风险应对方案

| 预期效果 |
| --- | --- | --- | --- | --- | --- |
| zk | 服务注册与发现,服务注册的时候,会将服务名、ip等信息写到zk里面,之后服务之间可以通过zk进行通信。比如talcamp调用edc,会先从zk中取出edc的服务节点列表(ip列表),之后调用其中的一台机器。
我们每个节点是有一份内存缓存的,即储存该服务所相关所有服务的(ip信息)。也就是说talcamp,即使zk挂掉了,talcamp也能从内存缓存中取出edc的ip列表进行访问。但是zk挂掉之后,新启动的服务,就会注册失败。 |

ZK故障后,本地服务缓存注册表可用

业务正常进行

|

灰度
talcamp

1. 正常情况做互动
2.添加host使zk访问不通(容器内部 修改/etc/hosts文件)
hs-common-kafka-zk-1 /2/3
3.故障后,再重复做互动

|
| 当前服务节点可用的情况下
1.老师和学生能正常进入直播间
2.老师和学生能正常进行互动 |
| kafkaproxy | Kafka代理 | 灰度只测试能起来,线上(结合压测)kill掉的时候报错并立即恢复 |

进程kill自动拉起 kill -9 pid

|
| 1.老师和学生能正常进入直播间
2.老师和学生能正常进行互动(投票) |
| 能正常进直播间 | supervisorctl stop pan(vote服务) | supervisorctl start pan |

1、老师和学生正常进入直播间
2. 验证投票点赞功能

3. 挂调后不能发起投票点赞
3. 重启后正常

|
| tw | redis代理 | tw节点自动摘除(vote:10.20.34.94:12721
) |

tw某节点挂掉,watch变更及时更新;

学研 -TwemProxy报警群

1、老师和学生正常进入直播间
2、老师和学生正常进行答题

|

手动down,手动恢复

| 1、老师和学生正常进入直播间
2、老师和学生正常进行互动 |
| Mysql | 记录数据库操作 | 主从切换(sjhl-xy-liveedc-mysql-rw:3306
) |

MySQL主节点挂掉,切换完成后功能正常

学习研发-xxb-DB统一报警群

1、老师和学生正常进入直播间
2、老师可正常发题

| 手动down,手动恢复 |

切换完成后功能正常

1、老师和学生正常进入直播间
2、老师和学生正常进行互动

|
| 第三方接口 | 超时 | 线上有报警,灰度有日志 |

禁掉对应的域名,验证一下语音弹幕功能,和辅导老师进端,查看班级下学生列表

修改etc/hosts

chatpush.msg.xescdn.com (irc相关功能可用切流验证)

wxdwapi.xesv5.com 用户标签

openai.100tal.com

| todo:兜底 |

收到报警

|
| kafka | 息队列,做异步消息使用。例如edc答题需要储存统计信息,但是学生并不关心统计,所以将统计信息通过kafka放到异步去计算,提高同步接口性能。 | kafa挂掉 | Kafka高可用验证 | 运维操作 |

1、把kafka 单节点屏蔽掉,学生正常提交 业务正常

|
| kafka不可用,kafkaproxy存储信息到本地文件4个G,业务需要报警,人工干预 |
| 修改host文件
屏蔽掉kafka(vote)

| 故障后,收不到点赞,恢复后收到点赞 |
| etcd | 同zk,和zk区别就是使用上的区别,以及etcd是k8s上的概念,更加契合go和我们的环境 |

相关组件内部有兜底策略
Cens影响单机推送限流值
DTCS走默认配置
XYSwitch有定期http拉取兜底
Sandwich相当于无缓存
EventCenter
可能需要重启的服务(Photowall,barrage,duration,encourage,eventcenter,grouping,lucky,moderation,puzzle,usercenter,cens)

KVM上重启的服务:

(worker_cens duration puzzle worker_newduration grouping limitsend)

监控:https://monitor-etcd.xesv5.com/wx-online/d/c0zw8VhMk/etcd-ji-qun?orgId=1&from=now-5m&to=now&var-job=etcd-xueyan-sjhl

|

etcd集群:
10.20.81.113:2379 10.20.81.116:2379 10.20.81.120:2379 10.20.81.119:2379 10.20.81.93:2379

注意:10.20.119.77是KVM的ip

| 需要SRE老师支持 | 1.老师和学生能正常进入直播间
2.老师和学生能正常进行互动

包括(覆盖Cens/DTCS):
班级PK能量同步、回合结算 |
| redis | 故障 | 有报警,主从切换 |

主节点挂调,告警正常

学习研发-xxb-DB统一报警群

1、老师和学生正常进入直播间
2、老师和学生正常进行投票

| 手动切,手动恢复 | 1、老师和学生正常进入直播间
2、老师和学生正常进行互动 |
| 非L0服务 | 故障 | 学生老师能正常进入直播间 | 非L0服务容器数量全部减为0
服务分级统计
https://yach-doc-shimo.zhiyinlou.com/sheets/Ee32xn0WM4iZ5ak2/tHpt0/ | 手动恢复 | 老师和学生正常进入直播间 |

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342