240 发简信
IP属地:北京
  • 数据建模常用模型

    1.星形模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。 星形模式的维度建模由一个事实表和一组维表...

  • Spark 数据倾斜问题

    1.前提是定位数据倾斜,是 OOM 了,还是任务执行缓慢,看日志,看 WebUI 2.解决方法,有多个方面: 1)避免不必要的 shuffle,如使用广播小表的方式,将 re...

  • 120
    spark运行流程

    具体运行流程如下: 1.SparkContext 向资源管理器注册并向资源管理器申请运行 Executor 2.资源管理器分配 Executor,然后资源管理器启动 Exec...

  • 双流join的底层原理

    union:union 支持双流 Join,也支持多流 Join。多个流类型必须一致; connector:connector 支持双流 Join,两个流的类型可以不一致; ...

  • 双流left join

    A表left join B表 (1)A表数据来了,B没来 (2)A表数据来了,B在规定时间内到 (3)A表数据来了,B在规定时间后面到 怎么处理? left join与rig...

  • 保障实时指标的质量

    1.⭐事前: ⭐任务层面:根据峰值流量进行压力测试,并且留一定 buffer,用于事前保障任务在资源层面没有瓶颈 ⭐指标层面:根据业务要求,上线实时指标前进行相同口径的实时、...

  • 合理评估任务最大并行度

    0. 前提:并行度必须 <= 最大并行度 1.⭐ 最大并行度的作用:合理设置最大并行度可以缓解数据倾斜的问题 2.⭐ 根据具体场景的不同,最大并行度大小设置也有不同的方式: ...

  • 合理评估flink的并行度

    Flink 任务并行度合理行一般根据峰值流量进行压测评估,并且根据集群负载情况留一定量的 buffer 资源 1.⭐ 如果数据源已经存在,则可以直接消费进行测试 2.⭐ 如果...

  • flink双流 Join

    流式计算中的 2 个问题: ⭐ 流式数据到达计算引擎的时间不一定:比如 A 流的数据先到了,A 流不知道 B 流对应同 key 的数据什么时候到,没法关联(数据质量问题) ⭐...

  • flink开窗函数

    FlinkSQL 窗口: TUMBLE(TABLE data, DESCRIPTOR(timecol), size) HOP(TABLE data, DESCRIPTOR(t...

  • 数据倾斜问题

    1.空值引发的数据倾斜 解决方法: 1)可以直接不让null值参与join操作,即不让null值有shuffle阶段 2)因为null值参与shuffle时的hash结果是一...

  • 状态,状态后端和checkpoint的关系

    状态:本质来说就是数据,在 Flink 中,其实就是 Flink 提供给用户的状态编程接口。比如 flink 中的 MapState,ValueState,ListState...

  • task,slot,线程,并行度的关系

    Flink中slot是任务执行所申请资源的最小单元,同一个TaskManager上的所有slot都只是做了内存分离,没有做CPU隔离。 slot 是指 taskmanager...

  • flink四种重启策略

    1)固定延迟重启策略(Fixed Delay Restart Strategy) 2)故障率重启策略(Failure Rate Restart Strategy) 3)没有重...

  • flink设置并行度

    ⭐ 代码中算子单独设置代码中算子单独设置 通过.setParallelism(n)来重新设置并行度(并行线程) ⭐ 代码中Env全局设置 ⭐ 提交参数 ⭐ 默认配置 优先级从上往下

  • 关于flink反压

    什么是反压: 算子的sub_task需要处理的数据量 > 能够处理的数据量 反压的危害:1.任务处理性能出现瓶颈 2.Checkpoint时间长或者失败(barrier要花...

  • 关于flink数据倾斜

    数据倾斜产生的原因:1.并行度1 2.key值一样,分到一个区 场景:拿计算直播间的同时在线观看用户数来说,大 v 直播间的人数会比小直播间的任务多几个量级,因此如果计算一个...

  • 端到端的精确一次保证

    Flink 任务 failover 之后,可能会重复写出数据到 Sink 中,你们公司是怎么做到端对端 exactly-once 的? 端对端 exactly-once 有 ...

  • flink窗口的种类及详述

    flink窗口的种类及详述: 滚动窗口(tumblingwindow)将事件分配到长度固定且互不重叠的桶中。 实际案例:简单且常见的分维度分钟级别同时在线用户数、总销售额 J...

  • 2022-05-04

    flink中Watermark的作用: 1.标识Flink任务的事件时间进度,从而能推动事件事件窗口的触发,计算。 比如一个事件时间窗口,如果没有一个东西去标识其事件事件的进...