240 发简信
IP属地:广东
  • Spark OOM解决办法

    Spark的OOM分为两种,map执行中内存溢出,shuffle后内存溢出 内存溢出解决办法 1.map过程产生大量对象导致内存溢出 例如:rd...

  • Spark面经

    1.TopN 键唯一的情况 使用mapPartitions()函数针对每一个分区求出TopN,最后collect求出最终的TopN. 键不唯一的...

  • Resize,w 360,h 240
    Hive面经

    1.hive内部表与外部表的区别 创建表时,内部表会将数据移到仓库指定路径,创建外部表时,仅记录数据所在路径,不对数据所在位置做任何改变 删除表...

  • Hive常用调优手段

    1.慎用DISTINCT hive中默认的distinct操作会将数据集中进行去重,将对应列数据放入内存中,形成一个类似hash的结构,已发生O...

  • 大数据学习笔记

    记录大数据学习过程中遇到的各种坑,基础知识不做记录 大数据框架版本 Hive-2.3.8 Hadoop-2.7.2 Spark-3.0.1