Spark - 文集

Spark

21篇文章 · 17181字 · 2人关注

Spark-SQL之DataFrame操作大全
原文链接Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过...

3901 1 3
Structured Streaming筛选出需要的列
从Structured Streaming的Dataframe中选取列，有以下几种方式： df.select("columnNameStr"),...

377 0 0

Structured Streaming同一个进程支持多维度的统计输出
Unsupported Operations There are a few DataFrame/Dataset operations that...

0.1 3065 2 1
Structured Streaming 将json转成column，变成null
加载json文件的时候，如果schema设置的属性，如果存在非字符串类型，那么转成column就都变成了null，eg.json文件内容如下： ...

879 0 0
SparkContext原理与源码剖析
1. SparkContext原理 2. SparkContext源码剖析 SparkContext是再Driver端创建，除了和Master通...

572 0 0
Spark宽依赖和窄依赖深度剖析
RDD依赖关系与stage划分 Spark中RDD的高效与DAG图有着莫大的关系，在DAG调度中需要对计算过程划分stage，而划分依据就是RD...

0.6 17958 0 13
Spark内核架构深度剖析
流程详解使用Standalone提交模式，将我们编写好的Application打成jar包上传到某Spark节点上，通过spark-submi...

433 0 0

Spark共享变量原理
共享变量通常情况下，一个传递给 Spark 操作（例如 map或 reduce）的函数 func 是在远程的集群节点上执行的。该函数 fu...

2338 0 3
RDD 持久化的工作原理
Spark 中一个很重要的能力是将数据持久化（或称为缓存），在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时，每个节点的其它分区...

1160 0 1