Spark技术文档 - 文集

Spark技术文档

24篇文章 · 36115字 · 7人关注

Spark--Spark RDD与Dataframe/Datasets对比学习
RDD知识点总结五大特性，宽窄依赖等详见连接：https://www.jianshu.com/p/592b985c443c Spark--...

1.4 5363 0 11
Spark--Spark多维分析cube/rollup/grouping sets/group by
概念简述 group by:主要用来对查询的结果进行分组，相同组合的分组条件在结果集中只显示一行记录。可以添加聚合函数。 grouping se...

0.3 10100 0 4

Spark--Spark宽窄依赖的理解
宽窄依赖概念窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用，子RDD分区通常对应常数个父RDD分区(O(1)，与数据规模无关) 宽依...

0.2 3751 0 1
Spark--SparkCore面试知识点总结
整理于【Spark面试2000题】Spark core面试篇03 ，梅峰谷大数据 1.Spark使用parquet文件存储格式能带来哪些好处？ ...

2.9 5552 0 14
Spark--Spark Shuffle细节掌握(面试类)问题
Spark Shuffle Read阶段是如何读取数据的 Reduce去拉取Map的输出数据，Spark提供了两套不同的拉取数据框架：通过soc...

2.1 6572 1 13
Spark--为什么Spark Application在没有获得足够的资源，job就开始执行了，可能会导致什么什么问题发生?
会导致执行该job时候集群资源不足，导致执行job结束也没有分配足够的资源，分配了部分Executor，该job就开始执行task，应该是tas...

0.2 4645 0 1
Spark--spark工作模式详解(local/standalone/yarn)
Spark 运行模式分类本地模式； standalone模式； spark on yarn 模式，又分未yarn-client和yarn-cl...

0.5 13101 0 6

Spark--透视函数pivot应用(行列转换)
参考博客连接 https://juejin.im/post/5b1e343f518825137c1c6a27 应用背景欢迎各位访问链接中原...

1.0 14600 0 7
Spark--聚合性数据倾斜解决方案实例说明
数据倾斜产生背景数据倾斜表现形势和网上流传不大一样，欢迎批评指正--李小李在开发DMP平台过程中，有一个标签体系时地理位置标签，需要根据IP...

0.2 7011 0 2