240 发简信
IP属地:广东
  • spark面试官喜欢问的细节问题

    1. EventTimeLine 的颜色代表 红色 Task Deserialization Time 任务反序列化时间Task Deserialization Time,一...

  • spark 动态UDF加载实现(1)

    本文参考了这篇文章实现,但是这篇文章使用过程中,local模式是没问题的,但是发生了cluster模式序列化问题,询问了作者也没给回复,所以这里给出了解决方案 https:/...

  • spark 动态UDF加载实现(3)

    这个方案写出来之后,基本大体上已经实现了,本地模式跑没有问题,这里因为安全问题,没法上传图片,所以只能贴数据 但是在集群模式去跑的时候,出现以下问题 问题排查 起初考虑是方法...

  • kafka shell Spark

    这里又碰到了一个问题,从consumer offsets到leader latest offsets中间延迟了很多消息,在下一次启动的时候,首个batch要处理大量的消息,会...

  • spark 内存模型以及垃圾回收优化

    1.6版本内存模型 1.6之前的版本是一个静态的内存模型,executor中分成三个部分,一部分是Execution区域,一部分是Storage内存区域,还有是预留的其他给s...

  • 二、大厂如何做 特征存储

    特征制作之后,需要进行存储到一个数据库中进行存储,一般根据推荐场景实时性的要求,一般会有两种场景: 实时性要求不高,推荐结果非在线更新:这种类型的推荐场景,由于对于实时的用户...