主从为什么会不一致
- 正常的基于row+gtid这样的结构运行
- 不会出现不一致
- 非常情况
- 主库或是从库异常掉电
- 磁盘出现写超时现象
- 进程异常crash
- 进程被kill掉
- MySQL5.7+Row+Gtid+增强半同步基本上这些都不是事
什么时间要进行数据校验
- 主从结构其中某个节点异常重启
- 复制出错,修复后需要安排校验
- 核心库或是核心,每个月为周期,全部需要校验一次
- 业务级别校验:记账类业务,基于小时级别校验及每天的整体校验
- DBA有的时间可以通过本质来处理一下:percona-tools
pt-table-checksum
- percona-tools中的一个重要工具
- 用于校验主从数据是不是一致
- 支持级联复制校验.但对于结果识别不好,需要人为确认是不是一致
- 执行命令
pt-table-checksum --nocheck-binlog-format --replication=xxx.checksums --ignore-databases=mysql --recursion-method=processlist --host=xxx --port=xxx --user=xxx
--password=xxx --databases=xxx
- 上述命令都执行了什么东西
- set @@binlog_format='STATEMENT';
- set SESSION TRANSACTION ISOLATION LEVEL REPEATABLE READ
- 创建指定的库
- 创建checksum表
- 校验是不是一致的SQL
- 在从库上执行
select db,tb1,SUM(this_cnt) AS total_rows,COUNT(*) AS chunks from wubx.checksum where (master_cnt <> this_cnt or master_crc <> this_crc or ISNULL(master_crc) <> ISNULL(this_crc)) group by db,tb1;
- pt-table-checksum输出结果
- TS #完成检查的时间
- ERRORS #检查时候发生错误和警告的数量
- DIFFS #0表示一致,1表示不一致(非零),当指定no replicate check时,会一直为0,当指定--replicate-check-only会显示不同的信息
- ROWS #表的行数
- CHUNKS #被划分到表中的块的数量
- SKIPPED #由于错误或警告或过大,则跳过的块的数目
- TIME #执行的时间
- TABLE #被检查的表明
--nocheck-binlog-format的用途
- 这个参数的意思是不检测binlog格式,如果是row格式会帮你转换成statement格式然后执行,之后再转换回来
指定库检测
pt-table-checksum --nocheck-binlog-format --replication=xxx.checksums --recursion-method=processlist --host=xxx --port=xxx --user=xxx
--password=xxx --databases=xxx
pt-table-checksum --nocheck-binlog-format --replication=xxx.checksums --recursion-method=processlist --host=xxx --port=xxx --user=xxx
--password=xxx --ignore-databases=mysql
只显示不一致的
pt-table-checksum --nocheck-binlog-format --replication=xxx.checksums --recursion-method=processlist --host=xxx --port=xxx --user=xxx
--password=xxx --databases=xxx --replicate-check-only
指定库和表来检查
pt-table-checksum --nocheck-binlog-format --replication=xxx.checksums --recursion-method=processlist --host=xxx --port=xxx --user=xxx
--password=xxx --databases=xxx --tables=xxx
大的表分段检查(where条件的使用)
pt-table-checksum --nocheck-binlog-format --replication=xxx.checksums --recursion-method=processlist --host=xxx --port=xxx --user=xxx
--password=xxx --databases=xxx --tables=xxx --where="id<=20000"
pt-table-sync
- 前提条件
- 先执行pt-table-checksum
- 要有checksum那张表才可以
- pt-table-sync h=xxx,P=xxx,u=xxx,p=xxx --replicate xxx.checksum --print
- 提示
- --sync-to-master #指定一个DSN,即从的IP,默认通过show processlist或show slave status去自动的找主
- --replicate #指定通过pt-table-checksum得到的表
- --print #打印,但不执行命令
- --execute #执行命令