1.星形模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。 星形模式的维度建模由一个事实表和一组维表...
1.星形模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。 星形模式的维度建模由一个事实表和一组维表...
1.前提是定位数据倾斜,是 OOM 了,还是任务执行缓慢,看日志,看 WebUI 2.解决方法,有多个方面: 1)避免不必要的 shuffle,如使用广播小表的方式,将 re...
具体运行流程如下: 1.SparkContext 向资源管理器注册并向资源管理器申请运行 Executor 2.资源管理器分配 Executor,然后资源管理器启动 Exec...
union:union 支持双流 Join,也支持多流 Join。多个流类型必须一致; connector:connector 支持双流 Join,两个流的类型可以不一致; ...
A表left join B表 (1)A表数据来了,B没来 (2)A表数据来了,B在规定时间内到 (3)A表数据来了,B在规定时间后面到 怎么处理? left join与rig...
1.⭐事前: ⭐任务层面:根据峰值流量进行压力测试,并且留一定 buffer,用于事前保障任务在资源层面没有瓶颈 ⭐指标层面:根据业务要求,上线实时指标前进行相同口径的实时、...
0. 前提:并行度必须 <= 最大并行度 1.⭐ 最大并行度的作用:合理设置最大并行度可以缓解数据倾斜的问题 2.⭐ 根据具体场景的不同,最大并行度大小设置也有不同的方式: ...
Flink 任务并行度合理行一般根据峰值流量进行压测评估,并且根据集群负载情况留一定量的 buffer 资源 1.⭐ 如果数据源已经存在,则可以直接消费进行测试 2.⭐ 如果...
流式计算中的 2 个问题: ⭐ 流式数据到达计算引擎的时间不一定:比如 A 流的数据先到了,A 流不知道 B 流对应同 key 的数据什么时候到,没法关联(数据质量问题) ⭐...
FlinkSQL 窗口: TUMBLE(TABLE data, DESCRIPTOR(timecol), size) HOP(TABLE data, DESCRIPTOR(t...
1.空值引发的数据倾斜 解决方法: 1)可以直接不让null值参与join操作,即不让null值有shuffle阶段 2)因为null值参与shuffle时的hash结果是一...
状态:本质来说就是数据,在 Flink 中,其实就是 Flink 提供给用户的状态编程接口。比如 flink 中的 MapState,ValueState,ListState...
Flink中slot是任务执行所申请资源的最小单元,同一个TaskManager上的所有slot都只是做了内存分离,没有做CPU隔离。 slot 是指 taskmanager...
1)固定延迟重启策略(Fixed Delay Restart Strategy) 2)故障率重启策略(Failure Rate Restart Strategy) 3)没有重...
⭐ 代码中算子单独设置代码中算子单独设置 通过.setParallelism(n)来重新设置并行度(并行线程) ⭐ 代码中Env全局设置 ⭐ 提交参数 ⭐ 默认配置 优先级从上往下
什么是反压: 算子的sub_task需要处理的数据量 > 能够处理的数据量 反压的危害:1.任务处理性能出现瓶颈 2.Checkpoint时间长或者失败(barrier要花...
数据倾斜产生的原因:1.并行度1 2.key值一样,分到一个区 场景:拿计算直播间的同时在线观看用户数来说,大 v 直播间的人数会比小直播间的任务多几个量级,因此如果计算一个...
Flink 任务 failover 之后,可能会重复写出数据到 Sink 中,你们公司是怎么做到端对端 exactly-once 的? 端对端 exactly-once 有 ...
flink窗口的种类及详述: 滚动窗口(tumblingwindow)将事件分配到长度固定且互不重叠的桶中。 实际案例:简单且常见的分维度分钟级别同时在线用户数、总销售额 J...
flink中Watermark的作用: 1.标识Flink任务的事件时间进度,从而能推动事件事件窗口的触发,计算。 比如一个事件时间窗口,如果没有一个东西去标识其事件事件的进...