慎独_2530 - 简书

发简信

0
关注
1
粉丝
21
文章
8072

字数
1

收获喜欢

IP属地：北京

慎独_2530

数据建模常用模型
1.星形模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心，所有的维度表直接连接在事实表上，像星星一样。星形模式的维度建模由一个事实表和一组维表...

483 0 0
慎独_2530

Spark 数据倾斜问题
1.前提是定位数据倾斜，是 OOM 了，还是任务执行缓慢，看日志，看 WebUI 2.解决方法，有多个方面: 1)避免不必要的 shuffle，如使用广播小表的方式，将 re...

195 0 0

慎独_2530

spark运行流程
具体运行流程如下： 1.SparkContext 向资源管理器注册并向资源管理器申请运行 Executor 2.资源管理器分配 Executor，然后资源管理器启动 Exec...

1407 0 0
慎独_2530

双流join的底层原理
union：union 支持双流 Join，也支持多流 Join。多个流类型必须一致； connector：connector 支持双流 Join，两个流的类型可以不一致； ...

500 0 0
慎独_2530

双流left join
A表left join B表 (1）A表数据来了，B没来 (2）A表数据来了，B在规定时间内到 (3)A表数据来了，B在规定时间后面到怎么处理？ left join与rig...

273 0 0
慎独_2530

保障实时指标的质量
1.⭐事前： ⭐任务层面：根据峰值流量进行压力测试，并且留一定 buffer，用于事前保障任务在资源层面没有瓶颈 ⭐指标层面：根据业务要求，上线实时指标前进行相同口径的实时、...

214 0 0
慎独_2530

合理评估任务最大并行度
0. 前提：并行度必须 <= 最大并行度 1.⭐ 最大并行度的作用：合理设置最大并行度可以缓解数据倾斜的问题 2.⭐ 根据具体场景的不同，最大并行度大小设置也有不同的方式： ...

330 0 0

慎独_2530

合理评估flink的并行度
Flink 任务并行度合理行一般根据峰值流量进行压测评估，并且根据集群负载情况留一定量的 buffer 资源 1.⭐ 如果数据源已经存在，则可以直接消费进行测试 2.⭐ 如果...

1686 0 1
慎独_2530

flink双流 Join
流式计算中的 2 个问题： ⭐ 流式数据到达计算引擎的时间不一定：比如 A 流的数据先到了，A 流不知道 B 流对应同 key 的数据什么时候到，没法关联（数据质量问题） ⭐...

545 0 0
慎独_2530

flink开窗函数
FlinkSQL 窗口： TUMBLE(TABLE data, DESCRIPTOR(timecol), size) HOP(TABLE data, DESCRIPTOR(t...

1368 0 0
慎独_2530

数据倾斜问题
1.空值引发的数据倾斜解决方法： 1）可以直接不让null值参与join操作，即不让null值有shuffle阶段 2）因为null值参与shuffle时的hash结果是一...

468 0 0
慎独_2530

状态,状态后端和checkpoint的关系
状态：本质来说就是数据，在 Flink 中，其实就是 Flink 提供给用户的状态编程接口。比如 flink 中的 MapState，ValueState，ListState...

894 0 0

慎独_2530

task,slot，线程，并行度的关系
Flink中slot是任务执行所申请资源的最小单元，同一个TaskManager上的所有slot都只是做了内存分离，没有做CPU隔离。 slot 是指 taskmanager...

1528 0 0
慎独_2530

flink四种重启策略
1）固定延迟重启策略（Fixed Delay Restart Strategy） 2）故障率重启策略（Failure Rate Restart Strategy） 3）没有重...

2972 0 0
慎独_2530

flink设置并行度
⭐ 代码中算子单独设置代码中算子单独设置通过.setParallelism(n)来重新设置并行度（并行线程） ⭐ 代码中Env全局设置 ⭐ 提交参数 ⭐ 默认配置优先级从上往下

451 0 0
慎独_2530

关于flink反压
什么是反压：算子的sub_task需要处理的数据量 > 能够处理的数据量反压的危害：1.任务处理性能出现瓶颈 2.Checkpoint时间长或者失败（barrier要花...

1528 0 0
慎独_2530

关于flink数据倾斜
数据倾斜产生的原因：1.并行度1 2.key值一样，分到一个区场景：拿计算直播间的同时在线观看用户数来说，大 v 直播间的人数会比小直播间的任务多几个量级，因此如果计算一个...

1151 0 0

慎独_2530

端到端的精确一次保证
Flink 任务 failover 之后，可能会重复写出数据到 Sink 中，你们公司是怎么做到端对端 exactly-once 的？端对端 exactly-once 有 ...

737 0 0
慎独_2530

flink窗口的种类及详述
flink窗口的种类及详述：滚动窗口（tumblingwindow）将事件分配到长度固定且互不重叠的桶中。实际案例：简单且常见的分维度分钟级别同时在线用户数、总销售额 J...

947 0 0
慎独_2530

2022-05-04
flink中Watermark的作用： 1.标识Flink任务的事件时间进度，从而能推动事件事件窗口的触发，计算。比如一个事件时间窗口，如果没有一个东西去标识其事件事件的进...

87 0 0

暂无个人介绍