一. 数据源准备 建表: 写存储过程批量插入数据: 二. FLink SQL客户端操作 启动yarn session内存尽量多指定,不然会包 O...
一. 存储一直看不到数据 这个问题卡了我好久好久,差点都要放弃了,还是看视频和文档不仔细。 如果是 streaming 写, 请确保开启 ch...
一. 离线 Clustering 异步的 clustering 相对于 online 的 async clustering 资源隔离, 从未更...
一. 离线Compaction 概述 MOR 表的 compaction 默认是自动打开的, 策略是 5 个 commits 执行一次压缩。 因...
一. Bucket 索引概述 从 0.11 开始支持默认的flink 流式 写入使用 state 存储索引信息: primary key 到 f...
一. Changelog 模式 如果希望 Hoodie 保留消息的所有变更(I/-U/U/D), 之后接上 Flink 引擎的有状态计算实现全链...
一. 全量接增量概述 如果已经有了全量的离线 Hoodie 表,需要接上实时写入,并且保证数据不重复,可以开启 index bootstrap...
一. 离线批量导入概述 如果存量数据来源于其它数据源,可以使用批量导入功能,快速将存量数据导成 Hoodie 表格式。 原理: 批量导入省去了 ...
一. 去重参数 如果需要去重,可以在创建hudi table的时候,指定主键,这样重复的数据只会保留最新的一行。 如上,hudi表以id为主键。...
文集作者