240 发简信
IP属地:江苏
  • Hive中4个By的区别以及如何调优?你知道么?

    1、Sort By:分区内有序 2、Order By:全局排序,只有一个Reducer 3、Distrbute By:类似MR中的Partiti...

  • 数据仓库--Hive

    数据仓库:数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持,数据仓库是存数据的,主要是为了分析有效数据,后续会基于它产出供分析挖...

  • MapPartition和Map的区别

    MapPartition和Map的区别 在Spark和Flink中有map和mapPartitions算子,处理数据上,有一些区别 主要区别: ...

  • Resize,w 360,h 240
    初识Flink

    Flink是什么 Apache Flink is a framework and distributed processing engine f...

  • Resize,w 360,h 240
    Yarn架构以及执行流程

    Yarn架构 Client、ResourceManager、NodeManager、ApplicationMaster Client:向RM提交...

  • TCP拆包和粘包问题

    TCP底层的粘包/拆包机制 其实很多熟悉TCP编程的小伙伴们都知道,无论是客户端还是服务端,当我们读取或者发送数据的时候,都需要去考虑TCP粘包...

  • Kafka的三种语义

    1、至少一次:at-least-once 表示的是关闭offset自动提交功能,消费端在消费数据的时候很可能在commitAync之前,已经保存...

  • MapReduce的执行原理

    1、框架会把输入文件(夹)划分为很多InputSplit,默认每个HDFS的Block对应一个InputSplit。通过RecordReader...

  • Resize,w 360,h 240
    大厂面试必问之JVM内存模型

    大家都知道,JVM内存模型以及GC垃圾回收是近几年来面试问的最多的问题,下面我将逐步和大家介绍和详述,首先图片先双手奉上,让大家先有个概念! 大...