240 发简信
IP属地:北京
  • 天池Python学习小组(1)

    一 print() 函数 print(*objects, sep=' ', end='\n', file=sys.stdout, flush=False) 将对象以字符串表示...

  • spark 面试题(1)

    1.spark中的RDD是什么,有哪些特性? 答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表...

  • spark 面试题(2)

    33.选择题 二、选择题 1. Spark 的四大组件下面哪个不是 (D ) A.Spark Streaming B. Mlib C Graphx D.Spark R 2...

  • 如何关闭 sparkstreaming 任务

    因为Spark Streaming流程序比较特殊,所以不能直接执行kill -9 这种暴力方式停掉,如果使用这种方式停程序,那么就有可能丢失数据或者重复消费数据。 为什么呢?...

  • Spark使用parquet文件存储格式能带来哪些好处

    1.Spark使用parquet文件存储格式能带来哪些好处? 1) 如果说HDFS 是大数据时代分布式文件系统首选标准,那么parquet则是整个大数据时代文件存储格式实时首...

  • 120
    Hive 处理数据倾斜

    在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的 Counters是整个Job的总和,优化是基于...

  • Hive 如何使用mapjoin

    MapJoin是Hive的一种优化操作,其适用于小表JOIN大表的场景,由于表的JOIN操作是在Map端且在内存进行的,所以其并不需要启动Reduce任务也就不需要经过shu...