前言 本文前半部分的内容在很久之前讲过,但是最近又有交接到团队内的历史任务出现这方面导致的性能问题,故有必要再讲一次,并扩展一部分新内容。先通过两个例子来引入Java类型擦除...
前言 本文前半部分的内容在很久之前讲过,但是最近又有交接到团队内的历史任务出现这方面导致的性能问题,故有必要再讲一次,并扩展一部分新内容。先通过两个例子来引入Java类型擦除...
摘要:本文整理自饿了么大数据架构师、Apache Flink Contributor 王沛斌老师在8月3日 Streaming Lakehouse Meetup Online...
人生主线混乱 最近一年真的是啥也没搞….一直是一个半途而废的糕手…一直想搞搞计算机其他方向的东西 之前花了俩三周学前端技术,后面到css和布局直接搞懵了,直接没啥搞的欲望了,...
前言 Elasticsearch不仅是强大的全文搜索引擎,在很多场景下(特别是TiDB、ShardingSphere等框架成熟之前)也被当做分布式HTAP数据库使用,在存储、...
Flink 使用介绍相关文档目录 Flink 使用介绍相关文档目录[https://www.jianshu.com/p/74f1990d047c] 前言 Flink提供了Ya...
前言 大家已经了解,StarRocks的更新模型、主键模型等在Flush和Compaction过程中会产生历史版本数据,这些垃圾数据需要及时被清理,以防止存储空间浪费。而St...
前言 本篇从Hudi角度介绍Flink常用的几种读写操作。内容主要来源于官网例子和个人理解。 读者如果想了解从编译、部署到使用的步骤,请参考:Flink 使用之 Hudi 编...
前言 我们知道,列式存储的数据组织形式使得它适合海量数据在线查询、分析的场景,而写入性能相对于读取性能似乎并不那么重要(传统的ORC / Parquet on Hive方案就...
什么是Clustering 开门见山,Clustering主要有两个作用:数据小文件合并和重排序。当数据写入Hudi表时,为了提高写入效率和存储利用率,可能会产生大量小文件。...