为什么需要compaction? LSM是一个顺序存储的结构,而且删除,修改都是追加方式存储,所以需要定时合并以减少数据冗余。 compaction的类型 按大小:较新和较小...
为什么需要compaction? LSM是一个顺序存储的结构,而且删除,修改都是追加方式存储,所以需要定时合并以减少数据冗余。 compaction的类型 按大小:较新和较小...
watermark 如何下发的? 一、 数据读取 A. AbstractStreamTaskNetworkInput:该类是用于读取上游数据 对象类别 含义:StreamS...
介绍 什么是statebackend? statebackend是用于存储state的状态后端,StateBackend 默认是保存在 JobManager 的内存中,也能够...
背景: bin/flink savepoint 162f59ee8c59f1617a1cf638e3640858 --target kubernetes-applicatio...
背景 flink 1.12.2版本,session模式,配置高可用,使用的是k8s高可用。报错内容如下: "flink-**-cluster-resourcemanager-...
问题1: host没同步,机器之间通信有问题 解决办法:同步hosts即可 问题2: zk连接数限制 任务跑了一段时间之后就开始背压,而且supervisor全挂了。查看zk...
Hbase 读取复杂原因: 主要基于两个方面的原因: 一是因为HBase一次范围查询可能会涉及多个Region、多块缓存甚至多个数据存储文件(HFile); 二是因为HBas...
提升读取性能方法:热点数据存储到内存中,以避免昂贵的IO开销。 HBase也实现了一种读缓存结构——BlockCache。客户端读取某个Block,首先会检查该Block是否...
大数据阶段 数据采集层(1)数据库同步(DataX/同步中心)(2)消息中间件(离线、实时) 数据计算层 数据服务层 数据应用层 一. 日志收集 二、数据同步 1.同步基础 ...
写入流程 HBase采用LSM树架构,天生适用于写多读少的应用场景。纯写入,没有更新和删除操作。所以更新和删除操作都认为是写入。 在真实生产线环境中,也正是因为HBase集群...
背景 flink1.12版本中使用了flinksql,固定了groupid。但是因为重复上了两个相同任务之后,发现数据消费重复。 下图sink中创建两个相同任务,会消费相同数...
跳跃表 跳跃表广泛使用于KV数据库中,诸如Redis、LevelDB、HBase都把跳跃表作为一种维护有序数据集合的基础数据结构。性质1一个节点落在第k层的概率为pk-1。性...
bigtable:解决Google内部海量结构化数据的存储以及高效读写问题。HBase是一个稀疏的、分布式的、多维排序的Map 1. 逻辑视图 table:表,一个表包含多行...
之前写了一篇文章介绍registerProcessingTimeTimer,有兴趣可以看下之前的文章。这篇文章介绍一下registerEventTimeTimer。 背景 首...
默认滚动升级策略:(1)默认配置: 讲解:假设当前有10个副本数1.新rs,新创建10*25%~=3,新创建3个副本。 旧rs,会在当前可用10-10*25%~=8的情况,删...
hostPort 这是一种直接定义Pod网络的方式。hostPort是直接将容器的端口与所调度的节点上的端口路由,这样用户就可以通过宿主机的IP加上来访问Pod了 port ...
本文根据的是flink1.12和flink1.13社区文章及分享整理。个人根据社区相关学习理解整理,仅供参考。 流批一体架构 A.flink 1.11 及之前 统一了Tabe...