数据湖的基本特征 可以从数据和计算两个层面进一步分析数据湖应该具备哪些特征。在数据方面: “保真性”。数据湖中对于业务系统中的数据都会存储一份“一模一样”的完整拷贝。与数据仓...
数据湖的基本特征 可以从数据和计算两个层面进一步分析数据湖应该具备哪些特征。在数据方面: “保真性”。数据湖中对于业务系统中的数据都会存储一份“一模一样”的完整拷贝。与数据仓...
一、什么是数据湖 数据湖是目前比较热的一个概念,许多企业都在构建或者计划构建自己的数据湖。但是在计划构建数据湖之前,搞清楚什么是数据湖,明确一个数据湖项目的基本组成,进而设计...
Apache Flink的Exactly-Once机制 Apache Flink是目前市场最受关注的流计算处理引擎,相较于Spark Streaming的依托Spark Co...
什么是Exactly-Once一致性语义 Apache Spark的Exactly-once机制 Apache Flink的Exactly-once机制 Exactly-On...
DataSet 一、Source算子 1. fromCollection fromCollection:从本地集合读取数据 例: 2. readTextFile readTe...
1. RDD复用 在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算: 对上图中的RDD计算架构进行修改,得到如下图所示的优化结果: 2. 尽早fil...
使用explode函数将hive表中的Map和Array字段数据进行拆分 lateral view用于和split、explode等UDTF一起使用的,能将一行数据拆分成多行...
聚合函数 注意:聚合操作时要注意null值count(*) 包含null值,统计所有行数count(id) 不包含null值min 求最小值是不包含null,除非所有值都是n...
单表查询 注意:1、order by 会对输入做全局排序,因此只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。2、sort by不是全局排序,其在数据进入...
1、对数据库的操作 创建数据库: 修改数据库: 说明:可以使用alter database 命令来修改数据库的一些属性。但是数据库的元数据信息是不可更改的,包括数据库的名称...
第一部分: hive模糊搜索表:show tables like '*name*'; 查看表结构信息:desc table_name; 查看分区信息:show partiti...
Flink CDC介绍 CDC全称是Change Data Capture,捕获变更数据,比如数据库捕获完整的变更日志记录增、删、改等,都可以称为CDC。该功能被广泛应用于数...
介绍 LEFT SEMI JOIN (左半连接)是 IN/EXISTS 子查询的一种更高效的实现。 示例 可以改写为 特点 1、left semi join 的限制是, JO...
一、前言 分布式系统中我们会对一些数据量大的业务进行分拆,如:用户表,订单表。因为数据量巨大一张表无法承接,就会对其进行分库分表。 但一旦涉及到分库分表,就会引申出分布式系统...
基于Redis的令牌桶算法 令牌桶算法提及到输入速率和输出速率,当输出速率大于输入速率,那么就是超出流量限制了。也就是说我们每访问一次请求的时候,可以从Redis中获取一个令...
温馨提示 : 本文非小白科普文 开窗函数简介 MYSQL 暂时还未对开窗函数给予支持。 测试数据 01、count 开窗函数 select username,product,...
FIRST_VALUE:取分组内排序后,截止到当前行,第一个值。LAST_VALUE:取分组内排序后,截止到当前行,最后一个值。LEAD(col,n,DEFAULT):用于统...
在大规模数据量的数据分析及建模任务中,往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源,因此一般情况下只需要抽取一小部分数据进行分析及建模操作。Hive提供了数据取样 ...
1、开启FetchTask 一个简单的查询语句,是指一个没有函数、排序等功能的语句,当开启一个Fetch Task功能,就执行一个简单的查询语句不会生成MapRreduce作...
问题:为什么 broadcast 只有 只读 的变量? 这就涉及一致性的问题,如果变量可以被更新,那么一旦变量被某个节点更新,其他节点要不要一块更新?如果多个节点同时在更新,...