Spark - 专题

投稿

Spark

收录了88篇文章 · 6人关注

Spark 数据抽象弹性分布式数据集RDD（Resilient Distributed Dataset）
实现思想与MR实现思想一致分而治之的思想,在Spark计算引擎中，思想与MapReduce一样，但是将输入数据、处理数据和输出数据封装抽象...

0.7 Eqo 0 1
spark 一些概念记录
主要的component standalone模式下： Master+work 的组网模式，master可以配置HA，可以通过 zookeepe...

0.2 NazgulSun 0 1

Spark Shuffle
Spark 内存管理和消费模型 Spark Shuffle 过程 Spark Shuffle OOM 可能性分析一、Spark 内存管理和消费...

0.1 坨坨的大数据 0 1
spark 内存管理
1. spark 内存用不好是怎样的情况？ storage（缓存）已经存储在磁盘上，说明预留给缓存的内存偏少在一个stage 执行的若干个...

0.1 坨坨的大数据 0 1
Spark架构模式与Flink的对比
Spark架构模式与Flink的对比 Spark和Flink都属于流批一体的分布式计算引擎。Flink属于流处理框架，通过流来模拟批，Spark...

1.2 Tim在路上 0 8
SparkConf 配置与传播
在spark分布式程序中，sparkConf 主要起着Spark程序进行资源配置，性能调优，功能开关，参数传递的能力。在Spark的Driver...

4.3 Tim在路上 0 4
八种解决 Spark 数据倾斜的方法
一、什么是数据倾斜对 Spark/Hadoop 这样的分布式大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜。对于分布式系统而言，理想情况...

0.1 坨坨的大数据 0 1

Spark[四]——Spark并行度
Spark并行度指在Spark作业中，各个Stage中task的数量，也就代表了Spark作业在各个阶段的并行度。合理设置并行度可以从以下几个方...

小段DSH12138 0 0
5W字总结Spark（三）(建议收藏)
八、Spark 数据倾斜详见：八种解决 Spark 数据倾斜的方法https://www.jianshu.com/p/a917c9969cf...

2.3 坨坨的大数据 0 7
Zeppelin Spark SQL Hive 查询不一致问题
Zeppelin SparkSQL Hive 查询不一致问题 1. 问题 Zeppelin Spark sql 查询出的数据量与 hive 不一...

六层楼那么高 0 1