Avatar notebook default
23篇文章 · 13715字 · 1人关注
  • Resize,w 360,h 240
    Hudi系列24: COW表初始化大表

    一. 数据源准备 建表: 写存储过程批量插入数据: 二. FLink SQL客户端操作 启动yarn session内存尽量多指定,不然会包 O...

  • Resize,w 360,h 240
    Hudi系列23:常见问题

    一. 存储一直看不到数据 这个问题卡了我好久好久,差点都要放弃了,还是看视频和文档不仔细。 如果是 streaming 写, 请确保开启 ch...

  • Hudi系列22:离线Clusting

    一. 离线 Clustering 异步的 clustering 相对于 online 的 async clustering 资源隔离, 从未更...

  • Hudi系列21:离线Compaction

    一. 离线Compaction 概述 MOR 表的 compaction 默认是自动打开的, 策略是 5 个 commits 执行一次压缩。 因...

  • Hudi系列20: Bucket索引

    一. Bucket 索引概述 从 0.11 开始支持默认的flink 流式 写入使用 state 存储索引信息: primary key 到 f...

  • Hudi系列19:Hudi写入模式

    一. Changelog 模式 如果希望 Hoodie 保留消息的所有变更(I/-U/U/D), 之后接上 Flink 引擎的有状态计算实现全链...

  • Hudi系列18:Hudi全量接增量

    一. 全量接增量概述 如果已经有了全量的离线 Hoodie 表,需要接上实时写入,并且保证数据不重复,可以开启 index bootstrap...

  • Resize,w 360,h 240
    Hudi系列17:离线批量导入

    一. 离线批量导入概述 如果存量数据来源于其它数据源,可以使用批量导入功能,快速将存量数据导成 Hoodie 表格式。 原理: 批量导入省去了 ...

  • Resize,w 360,h 240
    Hudi系列16:Hudi核心参数

    一. 去重参数 如果需要去重,可以在创建hudi table的时候,指定主键,这样重复的数据只会保留最新的一行。 如上,hudi表以id为主键。...

文集作者