大数据学习 - 简书

发简信

大数据学习

1
关注
22
粉丝
22
文章
51234

字数
62

收获喜欢
10

总资产

IP属地：广东

大数据学习

数据湖的基本特征
数据湖的基本特征可以从数据和计算两个层面进一步分析数据湖应该具备哪些特征。在数据方面： “保真性”。数据湖中对于业务系统中的数据都会存储一份“一模一样”的完整拷贝。与数据仓...

818 0 1
大数据学习

什么是数据湖
一、什么是数据湖数据湖是目前比较热的一个概念，许多企业都在构建或者计划构建自己的数据湖。但是在计划构建数据湖之前，搞清楚什么是数据湖，明确一个数据湖项目的基本组成，进而设计...

1205 0 1

大数据学习

Flink——Exactly-Once
Apache Flink的Exactly-Once机制 Apache Flink是目前市场最受关注的流计算处理引擎，相较于Spark Streaming的依托Spark Co...

1042 0 1
大数据学习

Spark——Exactly-Once
什么是Exactly-Once一致性语义 Apache Spark的Exactly-once机制 Apache Flink的Exactly-once机制 Exactly-On...

1011 0 1
大数据学习

Flink-算子（1）——DataSet
DataSet 一、Source算子 1. fromCollection fromCollection：从本地集合读取数据例： 2. readTextFile readTe...

655 0 2
大数据学习

Spark-RDD算子调优
1. RDD复用在对RDD进行算子时，要避免相同的算子和计算逻辑之下对RDD进行重复的计算：对上图中的RDD计算架构进行修改，得到如下图所示的优化结果： 2. 尽早fil...

314 0 1
大数据学习

Hive SQL(5)-lateral view 、explode 、reflect
使用explode函数将hive表中的Map和Array字段数据进行拆分 lateral view用于和split、explode等UDTF一起使用的，能将一行数据拆分成多行...

2018 0 2

大数据学习

Hive SQL(4)-函数
聚合函数注意：聚合操作时要注意null值count(*) 包含null值，统计所有行数count(id) 不包含null值min 求最小值是不包含null，除非所有值都是n...

781 0 1
大数据学习

Hive SQL(3)-DQL
单表查询注意：1、order by 会对输入做全局排序，因此只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。2、sort by不是全局排序，其在数据进入...

507 0 1
大数据学习

Hive SQL(2)-DDL/DML
1、对数据库的操作创建数据库: 修改数据库: 说明：可以使用alter database 命令来修改数据库的一些属性。但是数据库的元数据信息是不可更改的，包括数据库的名称...

290 0 1
大数据学习

Hive SQL(1)
第一部分： hive模糊搜索表：show tables like '*name*'; 查看表结构信息：desc table_name; 查看分区信息：show partiti...

387 0 1
大数据学习

Flink CDC实时数据入湖
Flink CDC介绍 CDC全称是Change Data Capture，捕获变更数据，比如数据库捕获完整的变更日志记录增、删、改等，都可以称为CDC。该功能被广泛应用于数...

1611 1 8

大数据学习

Hive 的 left semi join 讲解
介绍 LEFT SEMI JOIN （左半连接）是 IN/EXISTS 子查询的一种更高效的实现。示例可以改写为特点 1、left semi join 的限制是， JO...

坨坨的大数据
1241 0 2
大数据学习

一线大厂的分布式唯一 ID 生成方案是什么样的？
一、前言分布式系统中我们会对一些数据量大的业务进行分拆，如：用户表，订单表。因为数据量巨大一张表无法承接，就会对其进行分库分表。但一旦涉及到分库分表，就会引申出分布式系统...

坨坨的大数据
297 0 5
大数据学习

Redis 实现限流-令牌桶-简单实现
基于Redis的令牌桶算法令牌桶算法提及到输入速率和输出速率，当输出速率大于输入速率，那么就是超出流量限制了。也就是说我们每访问一次请求的时候，可以从Redis中获取一个令...

坨坨的大数据
3430 0 2
大数据学习

数据分析之hive开窗函数（一）
温馨提示 : 本文非小白科普文开窗函数简介 MYSQL 暂时还未对开窗函数给予支持。测试数据 01、count 开窗函数 select username，product，...

坨坨的大数据
1789 0 2
大数据学习

数据分析之hive开窗函数（二）
FIRST_VALUE：取分组内排序后，截止到当前行，第一个值。LAST_VALUE：取分组内排序后，截止到当前行，最后一个值。LEAD(col，n，DEFAULT)：用于统...

坨坨的大数据
684 0 2

大数据学习

Hive实现数据抽样的三种方法
在大规模数据量的数据分析及建模任务中，往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源，因此一般情况下只需要抽取一小部分数据进行分析及建模操作。Hive提供了数据取样 ...

坨坨的大数据
1492 0 3
大数据学习

Hive 实践 - 提高查询效率的八条军规
1、开启FetchTask 一个简单的查询语句，是指一个没有函数、排序等功能的语句，当开启一个Fetch Task功能，就执行一个简单的查询语句不会生成MapRreduce作...

坨坨的大数据
216 0 2
大数据学习

关于Spark的Broadcast
问题：为什么 broadcast 只有只读的变量？这就涉及一致性的问题，如果变量可以被更新，那么一旦变量被某个节点更新，其他节点要不要一块更新？如果多个节点同时在更新，...

1186 0 3

暂无个人介绍