240 发简信
IP属地:广东
  • Resize,w 360,h 240
    Airflow Task 血缘分析

    血缘分析流程 Airflow 原生 CLI 与 REST API 服务,Airflow Task 血缘方式可以通过以下几个步骤获取: 通过 CL...

  • Resize,w 360,h 240
    Hive SQL 元数据血缘管理

    模板概述 基于 Antlr4 编译 hive 相关 xxx.g 文件生成对应的模板,如 hive 源码中: 编译完成生成对应 *.java 文件...

  • Resize,w 360,h 240
    kafka exactly once 批处理

    简介 这几天,有个大兄弟问,如何实现 kafka 多线程批消费,目标: 确保 exactly once 语义 数据不丢失 支持定时同步,如15分...

  • 十二、淘宝用户行为数据示例

    测试数据 User Behavior Data from Taobao for Recommendation

  • 十一、Flink Table

    简介 Flink具有两个关系API - 表API和SQL - 用于统一流和批处理。Table API是Scala和Java的语言集成查询API,...

  • 十、广播变量

    简介 广播变量理解为是一个公共的共享变量,我们可以把一个dataset 数据集广播出去,然后不同的task在节点上都能够获取到,这个数据在每个节...

  • 九、Kafka 消费位点

    检查点使得 Apache Flink 具有容错能力,并确保了即时发生故障也能保证流应用程序的语义。检查点是以固定的间隔来触发的,该间隔可以在应用...

  • 八、Kafka Connector

    Flink-kafka-connector 读写kafkaKafka中的partition机制和Flink的并行度机制结合 实现数据恢复Kafk...

  • 七、Flink Event Time Watermark

    在 Apache Flink 中使用 watermark 的 4 个理解 在下文中的例子中,我们有一个带有时间戳的事件流,但是由于某种原因它们并...