240 发简信
IP属地:北京
  • 数据建模常用模型

    1.星形模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。 星形模式的...

  • Spark 数据倾斜问题

    1.前提是定位数据倾斜,是 OOM 了,还是任务执行缓慢,看日志,看 WebUI 2.解决方法,有多个方面: 1)避免不必要的 shuffle,...

  • Resize,w 360,h 240
    spark运行流程

    具体运行流程如下: 1.SparkContext 向资源管理器注册并向资源管理器申请运行 Executor 2.资源管理器分配 Executor...

  • 双流join的底层原理

    union:union 支持双流 Join,也支持多流 Join。多个流类型必须一致; connector:connector 支持双流 Joi...

  • 双流left join

    A表left join B表 (1)A表数据来了,B没来 (2)A表数据来了,B在规定时间内到 (3)A表数据来了,B在规定时间后面到 怎么处理...

  • 保障实时指标的质量

    1.⭐事前: ⭐任务层面:根据峰值流量进行压力测试,并且留一定 buffer,用于事前保障任务在资源层面没有瓶颈 ⭐指标层面:根据业务要求,上线...

  • 合理评估任务最大并行度

    0. 前提:并行度必须 <= 最大并行度 1.⭐ 最大并行度的作用:合理设置最大并行度可以缓解数据倾斜的问题 2.⭐ 根据具体场景的不同,最大并...

  • 合理评估flink的并行度

    Flink 任务并行度合理行一般根据峰值流量进行压测评估,并且根据集群负载情况留一定量的 buffer 资源 1.⭐ 如果数据源已经存在,则可以...

  • flink双流 Join

    流式计算中的 2 个问题: ⭐ 流式数据到达计算引擎的时间不一定:比如 A 流的数据先到了,A 流不知道 B 流对应同 key 的数据什么时候到...