血缘分析流程 Airflow 原生 CLI 与 REST API 服务,Airflow Task 血缘方式可以通过以下几个步骤获取: 通过 CL...
模板概述 基于 Antlr4 编译 hive 相关 xxx.g 文件生成对应的模板,如 hive 源码中: 编译完成生成对应 *.java 文件...
简介 这几天,有个大兄弟问,如何实现 kafka 多线程批消费,目标: 确保 exactly once 语义 数据不丢失 支持定时同步,如15分...
测试数据 User Behavior Data from Taobao for Recommendation
简介 Flink具有两个关系API - 表API和SQL - 用于统一流和批处理。Table API是Scala和Java的语言集成查询API,...
简介 广播变量理解为是一个公共的共享变量,我们可以把一个dataset 数据集广播出去,然后不同的task在节点上都能够获取到,这个数据在每个节...
检查点使得 Apache Flink 具有容错能力,并确保了即时发生故障也能保证流应用程序的语义。检查点是以固定的间隔来触发的,该间隔可以在应用...
Flink-kafka-connector 读写kafkaKafka中的partition机制和Flink的并行度机制结合 实现数据恢复Kafk...
在 Apache Flink 中使用 watermark 的 4 个理解 在下文中的例子中,我们有一个带有时间戳的事件流,但是由于某种原因它们并...