spark - 专题

投稿

spark

收录了485篇文章 · 1341人关注

Spark应用分片介绍
引言分布式计算的基本思路是将数据分为多个部分，将同样的数据操作方式在数据的不同部分上执行，分别获得结果，然后通过“汇聚处理”的方式得到结果。如...

0.3 WestC 0 3
Structured Streaming 分析
StructedStreaming 流程分析导言 Spark在2.*版本后加入StructedStreaming模块，与流处理引擎Sparks...

0.1 WestC 0 5

Spark Streaming-Streaming Join 实现梳理
当前Spark Streaming-Streaming Join只支持： InnerJoin; LeftJoin; RightJoin; 整体思...

0.2 分裂四人组 2 2
Spark的join什么情况下可以避免shuffle？
Spark的join操作可能触发shuffle操作。shuffle操作要经过磁盘IO，网络传输，对性能影响比较大。本文聊一聊Spark的join...

0.4 旺旺鸽不鸽 0 4
Spark存储内存在哪些地方用到？
漫谈Spark内存管理(一)有提到问题：“ Spark中用到内存的地方有哪些？存储内存主要消耗在哪些地方？执行内存主要消耗在哪些地方？”。本文就...

0.3 旺旺鸽不鸽 0 3
Spark 调优之数据倾斜
什么是数据倾斜？ Spark 的计算抽象如下数据倾斜指的是：并行处理的数据集中，某一部分（如 Spark 或 Kafka 的一个 Partit...

2.2 利伊奥克儿 5 7
hbase-spark bulk load(二)
概述之前写过spark批量导入Hbase的案例：Spark、BulkLoad Hbase、单列、多列，实现了多列的操作。整个过程涉及到排序、分...

0.2 利伊奥克儿 1 3

spark浅谈
学习和使用一段时间的spark，对spark的总结一下，希望对大家有用，不介绍怎么使用，只从设计上谈谈。 spark解决了什么问题？说sp...

1.3 若与 0 4
Spark Streaming限流反压机制源码剖析
本文基于spark streaming通过direct mode访问kafka的场景，从源码出发分析spark streaming如何实现数据读...

0.6 旺旺鸽不鸽 2 4
Spark自建的逻辑内存管理器是怎么申请和释放内存的？
在漫谈Spark内存管理(一)中，概述了Spark内存管理做的事情，并着重对unroll memory的概念做了解释及分析。本文继续讨论Spar...

1.5 旺旺鸽不鸽 1 2