场景:线上服务因为某些原因宕机了n小时,导致一大堆的数据有问题,日志中有把关键信息打出来,问如何修复数据?
思路:把日志中所有的关键信息都找出来,然后重新处理消息,比如消费者重新消费。那么问题就是:怎么把所有的消息都找出来?下面根据日志的存储介质分两种情况讲解。
一、日志在服务器的log文件中
1. 根据关键字定位某条日志
16:10:16.909 [ERROR] [Thread: http-nio-9530-exec-6340] com.xxx.xxx.xxx.xx.web.controller.PayController:165
- PAY refundOrderV3 fail, dbId = 11111, refundReq={"orderid":1111,"refundid":0,"refundFee":540,"reason":
"xxxx","payway":null,"mchid":null,"appid":null,"orderidPrefix":null}, responseMap = {"refundFee":"540",
"orderid":"1111","refundorderid":"1111","transactionid":"1111"}
假如我们根据相关的id定位到了这样一段日志,现在我们要找出所有报这个错的日志,并且把 refundReq=
后面那串json
给截取下来,有了这串json
,我们就可以重新去请求 refundOrderV3
方法。
2. 找出所有报这个错的日志
cat xxx-error.log.xxx | grep 'PayController:165 - PAY refundOrderV3 fail'
我们直接cat
对应日期的日志文件,然后grep
关键字即可,这样就会列出所有报这个错的日志。
3. 截取日志
但其实我们要的不是这一整段日志,而是要refundReq=
之后,responseMap
之前的那一串json
,所以要对日志进行截取。那么可以使用 awk
和sed
命令。
方式一:cat xxx-error.log.xxx | grep 'PayController:165 - PAY refundOrderV3 fail' | awk -F 'refundReq=' '{print $2}' | sed 's/, responseMap.*//'
方式二:cat xxx-error.log.xxx | grep 'PayController:165 - PAY refundOrderV3 fail' | awk -F 'refundReq=' '{print $2}' | awk -F ', responseMap' '{print $1}'
这里解释一下这条命令的意思,先grep
命令拿到所有报这个错的日志,用 awk -F '分割标志' '{print $需要分割的第几段}'
命令进行分割,这里就是根据refundReq=
分割,在它之前的是1,之后的是2,我们要取之后的,因此是{print $2}
,拿到的结果就是:
{"orderid":1111,"refundid":0,"refundFee":540,"reason":"xxxx","payway":null,"mchid":null,"appid":null,"orderidPrefix":null},
responseMap = {"refundFee":"540","orderid":"1111","refundorderid":"1111","transactionid":"1111"}
我们还想把, responseMap
之后的内容去掉,两种思路:
- 把
, responseMap
之后的内容替换成空白字符,即用sed
命令实现。sed 's/内容/新内容/'
,要替换的是, responseMap
之后的所有内容,那就用, responseMap.*
,新内容是空白字符,所以直接空着就行,因此就是:sed 's/, responseMap.*//'
。 - 针对第一次
awk
拿到的内容,再awk
分割一下,根据, responseMap
分割,这次我们要取它之前的内容,因此是awk -F ', responseMap' '{print $1}'
。
这样就可以轻松拿到所有所需要的json
串了。
4. 输出到文件
直接用 > xxx.log
命令,将刚才命令的执行结果输出到xxx.log
文件中。
cat xxx-error.log.xxx | grep 'PayController:165 - PAY refundOrderV3 fail' | awk -F 'refundReq=' '{print $2}' | sed 's/, responseMap.*//' > xxx.log
拿到这个文件,就好处理了,可以用notepad++之类的工具,根据需要进行操作,比如在每一行的前面加 curl 之类的命令,然后文件名改成 xxx.sh,回传到服务器执行就好了。
二、日志在clickhouse中
有人可能要问了,日志在clickhouse中,用不了 linux 的命令,咋整?别慌,问题不大。
1. 查找日志,导出到文件
比如根据关键字找到的日志如上图所示,我们要截取 msg=
后面的那一串,首先点击左上角的双箭头,进入如下页面:
点击搜索,就会出现一个表格,然后点左上角第四个图标,就会导出一个文件。导出之后,其实我们只要
message
那一列即可,所以我们复制那一列到一个新的excel中。这个时候,我要截取
msg=
之后,,errMsg
之前的内容,那么可以用excel的mid
和find
函数实现,mid函数语法:=MID(①在哪列截取,②从第几个开始,③截取的长度)
;find函数语法:find("查找的内容", 查找的列)
。直接在第二列输入=MID(A1, FIND("msg=", A1) + LEN("msg="), FIND(", erroMsg:", A1) - FIND("msg=", A1) - LEN("msg="))
,这个意思就是对A1列的内容做截取操作,FIND("msg=", A1) + LEN("msg=")
表示从msg=
后面开始截取,FIND(", erroMsg:", A1) - FIND("msg=", A1) - LEN("msg=")
表示截取的长度就是:从开始到, erroMsg:
的长度减去从开始到msg=
的长度,最后还要减去msg=
本身的长度。这样就截取到了需要的内容了,接下来的操作就和上面一样了。