240 发简信
IP属地:广东
  • 数据湖的基本特征

    数据湖的基本特征 可以从数据和计算两个层面进一步分析数据湖应该具备哪些特征。在数据方面: “保真性”。数据湖中对于业务系统中的数据都会存储一份“...

  • 什么是数据湖

    一、什么是数据湖 数据湖是目前比较热的一个概念,许多企业都在构建或者计划构建自己的数据湖。但是在计划构建数据湖之前,搞清楚什么是数据湖,明确一个...

  • Flink——Exactly-Once

    Apache Flink的Exactly-Once机制 Apache Flink是目前市场最受关注的流计算处理引擎,相较于Spark Strea...

  • Resize,w 360,h 240
    Spark——Exactly-Once

    什么是Exactly-Once一致性语义 Apache Spark的Exactly-once机制 Apache Flink的Exactly-on...

  • Resize,w 360,h 240
    Flink-算子(1)——DataSet

    DataSet 一、Source算子 1. fromCollection fromCollection:从本地集合读取数据 例: 2. read...

  • Resize,w 360,h 240
    Spark-RDD算子调优

    1. RDD复用 在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算: 对上图中的RDD计算架构进行修改,得到如下图所示...

  • Hive SQL(5)-lateral view 、explode 、reflect

    使用explode函数将hive表中的Map和Array字段数据进行拆分 lateral view用于和split、explode等UDTF一起...

  • Hive SQL(4)-函数

    聚合函数 注意:聚合操作时要注意null值count(*) 包含null值,统计所有行数count(id) 不包含null值min 求最小值是不...

  • Hive SQL(3)-DQL

    单表查询 注意:1、order by 会对输入做全局排序,因此只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。2、sort ...