慎独_2530 - 简书

IP属地：北京

数据建模常用模型
1.星形模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心，所有的维度表直接连接在事实表上，像星星一样。星形模式的...

428 0 0
Spark 数据倾斜问题
1.前提是定位数据倾斜，是 OOM 了，还是任务执行缓慢，看日志，看 WebUI 2.解决方法，有多个方面: 1)避免不必要的 shuffle，...

185 0 0

spark运行流程
具体运行流程如下： 1.SparkContext 向资源管理器注册并向资源管理器申请运行 Executor 2.资源管理器分配 Executor...

1318 0 0
双流join的底层原理
union：union 支持双流 Join，也支持多流 Join。多个流类型必须一致； connector：connector 支持双流 Joi...

390 0 0
双流left join
A表left join B表 (1）A表数据来了，B没来 (2）A表数据来了，B在规定时间内到 (3)A表数据来了，B在规定时间后面到怎么处理...

180 0 0
保障实时指标的质量
1.⭐事前： ⭐任务层面：根据峰值流量进行压力测试，并且留一定 buffer，用于事前保障任务在资源层面没有瓶颈 ⭐指标层面：根据业务要求，上线...

198 0 0
合理评估任务最大并行度
0. 前提：并行度必须 <= 最大并行度 1.⭐ 最大并行度的作用：合理设置最大并行度可以缓解数据倾斜的问题 2.⭐ 根据具体场景的不同，最大并...

291 0 0

合理评估flink的并行度
Flink 任务并行度合理行一般根据峰值流量进行压测评估，并且根据集群负载情况留一定量的 buffer 资源 1.⭐ 如果数据源已经存在，则可以...

1602 0 1
flink双流 Join
流式计算中的 2 个问题： ⭐ 流式数据到达计算引擎的时间不一定：比如 A 流的数据先到了，A 流不知道 B 流对应同 key 的数据什么时候到...

489 0 0