一、Shuffle描述 Shuffle的正常意思是洗牌或弄乱,可能大家更熟悉的是Java API里的Collections.shuffle(List)方法,它会随机地打乱参数...

一、Shuffle描述 Shuffle的正常意思是洗牌或弄乱,可能大家更熟悉的是Java API里的Collections.shuffle(List)方法,它会随机地打乱参数...
Shuffle过程是MapReduce的核心,描述着数据从map task输出到reduce task输入的这段过程。 Hadoop的集群环境,大部分的map task和re...
1. 避免使用子查询 由于子查询会产生大量的临时表也没有索引,所以会消耗过多的CPU和IO资源,产生大量的慢查询 【子查询性能差的原因】 2. in 查询的避免(我经理,所...
3、Pandas 数据结构 - DataFrame DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。Data...
今天刚创建了一个表,为订单号创建了唯一索引。在测试同学测试的过程中,看了一下数据,竟然有重复订单号?怎么想都想不明白,问了另一个大牛,他告诉我: 因为分库分表了。唯一键只能保...
一、背景 在使用Hive的数据开发工作中,为了处理复杂的业务需求,经常要用到行转列或列转行的操作。为了节省以后处理这类工作的时间,提高工作效率,现将Hive行列互转的操作方法...
一. Apache Atlas简介 1.1 简介 在当今大数据的应用越来越广泛的情况下,数据治理一直是企业面临的巨大问题。 大部分公司只是单纯的对数据进行了处理,而数据的血缘...
一、RDD是什么? RDD是一个弹性可复原的分布式数据集!RDD是一个逻辑概念,一个RDD中有多个分区,一个分区在Executor节点上执行时,他就是一个迭代器。 一个RDD...
时间语义 上图是数据流式处理过程,涉及到两个重要的时间点:事件时间(Event Time)和处理时间(Processing Time)。 事件时间(Event Time):即...