背景介绍 Linkis是一款优秀的计算中间件,他对应用层屏蔽了复杂的底层计算引擎和存储方案,让大数据变得更加简单易用,同时也让运维变得更加方便。我们的平台很早就部署了WDS...
背景介绍 Linkis是一款优秀的计算中间件,他对应用层屏蔽了复杂的底层计算引擎和存储方案,让大数据变得更加简单易用,同时也让运维变得更加方便。我们的平台很早就部署了WDS...
Web3.0时代:开放、隐私、共建 在分布式技术(区块链)的助力下,Web3.0将从开放、隐私和共建三个角度去颠覆Web2.0互联网,打造一个由用户社区主导的去中心化世界,重...
一、AQE特性 自适应查询执行(AQE)是Spark SQL中的一种优化技术,它利用运行时统计信息来选择最有效的查询执行计划,也就是说可以根据执行过程中的中间数据优化后续执行...
一、Shuffle流程 1、Shuffle定义 Spark之所以出现Shuffle,主要是因为具有某种共同特征的一类数据需要最终汇聚到一个计算节点上进行计算。这些数据分布在各...
Spark作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。 在执行Spark的应用程序时,Spark集群会启动Driver和Executor...
Spark任务从提交到执行完成有很多步骤,整体上可以划分为三个阶段: 应用的提交; 执行环境的准备; 任务的调度和执行。 一、执行流程概述 Spark有多种不同的运行模式,在...
1、窗口函数 常用到的Hive窗口函数具体有:row_number()、rank()、dense_rank() 这三个窗口函数,具体区别主要有: row_number:不管排...
一、Rowkey设计 1、Rowkey长度原则 Rowkey是一个二进制码流,Rowkey的长度建议设计在10-100个字节,最好不要超过16个字节。原因有: 数据的持久化文...
Hive作为大数据领域常见的数据仓库组件,在设计和开发阶段需要注意效率。影响Hive效率的不仅仅是数据量过大、数据倾斜、job(小文件过多)或者磁盘I/O过多、MapRedu...
一、基础配置 我们公司yarn node节点的可用资源配置为:单台node节点可用资源数:核数33cores、内存110G。Hive on Spark任务的基础配置,主要配置...
Hive调优策略 Hive作为大数据领域常用的数据仓库组件,在设计和开发阶段需要注意效率。 影响Hive效率的不仅仅是数据量过大;数据倾斜、数据冗余、job(小文件多)或I/...
Spark GraphX概述 GraphX是Spark的一个组件,专门用来表示图以及进行图的并行计算。GraphX通过重新定义了图的抽象概念来拓展了RDD:定向多图,其属性附...