背景 spark reuse pvc feature PVC: PersistentVolumeClaim[https://kubernetes.io/docs/conce...
背景 spark reuse pvc feature PVC: PersistentVolumeClaim[https://kubernetes.io/docs/conce...
@九剑笑 这些语法flink 已经实现了
FlinkSQL 语法扩展FlinkSQL 语法扩展 参考flink-sql-parser模块了解下Flink如何扩展Calcite语法,创建空项目进行语法扩展。首先,拷贝codegen文件夹下的内容...
hudi 数据读取以 fileSlice 为单位读取, 依次将 fileSlice 的basefile、logfile数据加载到内存根据新旧数据的合并策略将新旧数据进行me...
HoodieTable 定义了写hudi 表依赖的组件及对表操作API(upsert、delete等),根据不同操作创建BaseActionExecutor完成数据的写入。...
生产者-消费者模式用来协调数据生产和消费速度不一致问题,在hudi中数据写入时非常依赖该设计模式,且中间涉及一些比较好用的工具类可以直接拿来用,例如:ObjectSizeCa...
项目中使用Flink SQL 将离线数据、流数据写入Hudi,自下而上分析写hudi的流程。hudi 版本0.10.0-patch。 HoodieWriteHandle 负责...
一、 idea 的下载 官网下载地址:https://www.jetbrains.com/下载.png 百度云提供 2020.1 的版本: 链接: https://pan.b...
8月份 FlinkCDC 发布2.0.0版本,相较于1.0版本,在全量读取阶段支持分布式读取、支持checkpoint,且在全量 + 增量读取的过程在不锁表的情况下保障数据一...
引子 表值函数(table-valued function, TVF),顾名思义就是指返回值是一张表的函数,在Oracle、SQL Server等数据库中屡见不鲜。而在Fli...
背景 Flink LookupTableSource 通过使用流数据的一列或者多列的值,加载外部存储数据(维表数据),进而完成对流数据的字段扩展。在维表数据不频繁变更的情况下...
背景 Flink 支持将流数据以文件形式存储到外部系统,典型使用场景是将数据写入Hive表所在 HDFS存储路径,通过Hive 做查询分析。随着Flink文件写入被业务广泛使...
背景 在1.9.1版本中分布式缓存并未拷贝HDFS下的文件到TM,运行时抛出如下异常。 升级到1.10.1版本,能正常使用。借此,学习下Flink 分布式缓存相关知识。 定义...
有Flink开发经验的用户应该知道,在flink-conf.yaml文件进行作业参数配置后,通过如下指令以Perjob模式,将作业提交到Yarn集群运行。 本文将对命令行后的...
FlinkSQL 语法扩展 参考flink-sql-parser模块了解下Flink如何扩展Calcite语法,创建空项目进行语法扩展。首先,拷贝codegen文件夹下的内容...
Flink1.9以后引入CatalogManager来管理Catalog和CatalogBaseTable,在执行DDL语句时将表信息封装为CatalogBaseTable存...
前言 Presto是一款Facebook开源的MPP架构的OLAP查询引擎,可针对不同数据源执行大容量数据集的一款分布式SQL执行引擎。因为工作中接触到Presto,研究它对...
Flink根据算子之间的依赖关系构建出Transformations并依次形成StreamGraph、JobGraph 、ExecutionGraph、 物理执行图。 Str...