数据湖的基本特征 可以从数据和计算两个层面进一步分析数据湖应该具备哪些特征。在数据方面: “保真性”。数据湖中对于业务系统中的数据都会存储一份“...
一、什么是数据湖 数据湖是目前比较热的一个概念,许多企业都在构建或者计划构建自己的数据湖。但是在计划构建数据湖之前,搞清楚什么是数据湖,明确一个...
Apache Flink的Exactly-Once机制 Apache Flink是目前市场最受关注的流计算处理引擎,相较于Spark Strea...
什么是Exactly-Once一致性语义 Apache Spark的Exactly-once机制 Apache Flink的Exactly-on...
DataSet 一、Source算子 1. fromCollection fromCollection:从本地集合读取数据 例: 2. read...
1. RDD复用 在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算: 对上图中的RDD计算架构进行修改,得到如下图所示...
使用explode函数将hive表中的Map和Array字段数据进行拆分 lateral view用于和split、explode等UDTF一起...
聚合函数 注意:聚合操作时要注意null值count(*) 包含null值,统计所有行数count(id) 不包含null值min 求最小值是不...
单表查询 注意:1、order by 会对输入做全局排序,因此只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。2、sort ...