使用背景:弹幕搜索引擎(lucene)需要将Mysql中新增的数据同步到本地索引文件,方案有以下几种:
1、定时刷表取最近更新的数据更新到索引,这种方式优点就是简单,缺点是非实时更新,且「更新时间」字段一般不会建索引,以此为参照扫表效率低下,可能产生慢查询影响mysql本身性能;
2、通过MQ订阅弹幕变更的消息;
3、订阅弹幕mysql的binlog日志;
第一版是通过方式1实现,由于弹幕团队并未发送也不愿意发送mq消息出来,所以山不转水转,绕过弹幕业务层,直接通过第3种方式进行改造。
canal githup地址:https://github.com/alibaba/canal
java client官方demo:https://github.com/alibaba/canal/wiki/ClientExample
Maven依赖
<dependency>
<groupId>com.alibaba.otter</groupId>
<artifactId>canal.client</artifactId>
<version>1.1.0</version>
</dependency>
官方Demo,略做改动
package com.king.x.binlog.canal;
import java.util.List;
import com.alibaba.otter.canal.client.CanalConnector;
import com.alibaba.otter.canal.client.CanalConnectors;
import com.alibaba.otter.canal.protocol.CanalEntry.Column;
import com.alibaba.otter.canal.protocol.CanalEntry.Entry;
import com.alibaba.otter.canal.protocol.CanalEntry.EntryType;
import com.alibaba.otter.canal.protocol.CanalEntry.EventType;
import com.alibaba.otter.canal.protocol.CanalEntry.RowChange;
import com.alibaba.otter.canal.protocol.CanalEntry.RowData;
import com.alibaba.otter.canal.protocol.Message;
public class BinlogSuberZK {
public static void main(String[] args) {
// 创建链接, 分表是zookeeper地址、目标、用户名、密码
CanalConnector connector = CanalConnectors.newClusterConnector("xxx", "xx", "", ""); // 1
int batchSize = 1000;
int emptyCount = 0;
try {
connector.connect();
connector.subscribe(".*\\..*"); // 2
connector.rollback();
while (true) {
Message message = connector.getWithoutAck(batchSize); // 获取指定数量的数据
long batchId = message.getId();
int size = message.getEntries().size();
if (batchId == -1 || size == 0) {
emptyCount++;
System.out.println("empty count : " + emptyCount);
try {
Thread.sleep(1000);
} catch (InterruptedException e) {
}
} else {
emptyCount = 0;
printEntry(message.getEntries());
}
connector.ack(batchId); // 提交确认
// connector.rollback(batchId); // 处理失败, 回滚数据
}
} finally {
connector.disconnect();
}
}
private static void printEntry(List<Entry> entrys) {
for (Entry entry : entrys) {
if (entry.getEntryType() == EntryType.TRANSACTIONBEGIN || entry.getEntryType() == EntryType.TRANSACTIONEND) {
continue;
}
RowChange rowChage = null;
try {
rowChage = RowChange.parseFrom(entry.getStoreValue());
} catch (Exception e) {
throw new RuntimeException("ERROR ## parser of eromanga-event has an error , data:" + entry.toString(), e);
}
EventType eventType = rowChage.getEventType();
System.out.println(String.format("================> binlog[%s:%s] , name[%s,%s] , eventType : %s", entry.getHeader().getLogfileName(),
entry.getHeader().getLogfileOffset(), entry.getHeader().getSchemaName(), entry.getHeader().getTableName(), eventType));
for (RowData rowData : rowChage.getRowDatasList()) {
if (eventType == EventType.DELETE) {
printColumn(rowData.getBeforeColumnsList());
} else if (eventType == EventType.INSERT) {
printColumn(rowData.getAfterColumnsList());
} else {
System.out.println("-------> before");
printColumn(rowData.getBeforeColumnsList());
System.out.println("-------> after");
printColumn(rowData.getAfterColumnsList());
}
}
}
}
private static void printColumn(List<Column> columns) {
for (Column column : columns) {
System.out.println(column.getName() + " : " + column.getValue() + " update=" + column.getUpdated());
}
}
}
标注说明
1:创建Connector方式有3种,1-单点、2-服务端高可用、3-服务端和客户端高可用(使用zookeeper调度)
2:客户端订阅过滤器,不配则使用服务端配置,配置规则如下:
多个正则之间以逗号(,)分隔,转义符需要双斜杠(\\)
常见例子:
1. 所有表:.* or .*\\..*
2. canal schema下所有表: canal\\..*
3. canal下的以canal打头的表:canal\\.canal.*
4. canal schema下的一张表:canal\\.test1
5. 规则组合使用:canal\\..*,mysql.test1,mysql.test2 (逗号分隔)
其他说明:
1、使用zookeeper创建连接的方式,启动多个客户端只有一个工作,其余客户端为热备,工作的客户端挂了一定时间后服务器将给热备客户端推送数据;
2、canal推送是单一推送,可以理解为mq中单topic单queue,即:只有一个线程能消费,且无法重复消费。 若想实现多播,可以让canal server直接写kafka或rocketMQ,客户端订阅MQ即可。