前言 本文前半部分的内容在很久之前讲过,但是最近又有交接到团队内的历史任务出现这方面导致的性能问题,故有必要再讲一次,并扩展一部分新内容。先通过两个例子来引入Java类型擦除...
前言 本文前半部分的内容在很久之前讲过,但是最近又有交接到团队内的历史任务出现这方面导致的性能问题,故有必要再讲一次,并扩展一部分新内容。先通过两个例子来引入Java类型擦除...
摘要:本文整理自饿了么大数据架构师、Apache Flink Contributor 王沛斌老师在8月3日 Streaming Lakehouse Meetup Online...
人生主线混乱 最近一年真的是啥也没搞….一直是一个半途而废的糕手…一直想搞搞计算机其他方向的东西 之前花了俩三周学前端技术,后面到css和布局直接搞懵了,直接没啥搞的欲望了,...
前言 Elasticsearch不仅是强大的全文搜索引擎,在很多场景下(特别是TiDB、ShardingSphere等框架成熟之前)也被当做分布式HTAP数据库使用,在存储、...
Flink 使用介绍相关文档目录 Flink 使用介绍相关文档目录[https://www.jianshu.com/p/74f1990d047c] 前言 Flink提供了Ya...
前言 大家已经了解,StarRocks的更新模型、主键模型等在Flush和Compaction过程中会产生历史版本数据,这些垃圾数据需要及时被清理,以防止存储空间浪费。而St...
前言 本篇从Hudi角度介绍Flink常用的几种读写操作。内容主要来源于官网例子和个人理解。 读者如果想了解从编译、部署到使用的步骤,请参考:Flink 使用之 Hudi 编...
前言 我们知道,列式存储的数据组织形式使得它适合海量数据在线查询、分析的场景,而写入性能相对于读取性能似乎并不那么重要(传统的ORC / Parquet on Hive方案就...
什么是Clustering 开门见山,Clustering主要有两个作用:数据小文件合并和重排序。当数据写入Hudi表时,为了提高写入效率和存储利用率,可能会产生大量小文件。...
前言 Hudi Flink支持配置table service的异步执行。Schedule的时机为checkpoint完成的时候。执行过程在线程池中完成。Flink Hudi ...
背景 本篇以Flink操作Hudi表为例,分析COW表和MOR表的upsert以及insert操作详细的执行流程。 StreamWriteFunction Hudi Flin...
Flink 使用介绍相关文档目录 Flink 使用介绍相关文档目录[https://www.jianshu.com/p/74f1990d047c] 前言 近期一个需求是写一套...
Flink 使用介绍相关文档目录 Flink 使用介绍相关文档目录[https://www.jianshu.com/p/74f1990d047c] 前言 本篇接Flink 使...
Flink 使用介绍相关文档目录 Flink 使用介绍相关文档目录[https://www.jianshu.com/p/74f1990d047c] 前言 概括来说,water...
Hudi Spark使用 本篇为大家带来通过Spark shell和Spark SQL操作Hudi表的方式。 Hudi表还可以通过Spark ThriftServer操作,参...
Clean的概念 Hudi表拥有时间线(Timeline)。可以理解为Hudi表的修改日志。Hudi不仅记录了什么时候发生了何种类型修改,还记录了这次修改对应的数据文件。这些...
背景 对于Upsert操作,Hudi需要定位到数据所在的File Group。当File Group很多的时候,定位File Group的过程会成为性能瓶颈。 Hudi 提供...