Spark - 文集

Spark

8篇文章 · 10042字 · 1人关注

8.Spark Sql
定义 SparkSql是Apache Spark大数据框架的一部分，主要用于处理结构化数据和对Spark数据执行类sql的查询，Spark为其提...

0.1 845 0 1
7.Spark Streaming
Spark Streaming是Spark核心api的一个拓展，可以实现高吞吐量/具备容错机制的实时流数据的处理Spark Streaming ...

0.3 887 0 4

6.Spark的wordCount原理解析
针对以下wordCount的实现原理以画图的方式进行分析代码图解

1153 0 0
5.Spark的wordCount（java/scala）
在代码实现之前，先查看一下数据源是怎样的截取了文本的第一段，已经对文本进行预处理，以空格将单词分割。 Java实现输出结果 Scala实现 ...

494 0 0
4.Spark调优
在Spark中，每一个进程包含一个executor对象，一个executor包含一个线程池，每个线程执行一个tasks 线程池的好处就在于省去了...

0.3 339 0 2
3.Spark Core
Spark是基于弹性分布式数据集（RDD）的模型，具有良好的通用性、容错性与并行处理数据的能力那么什么是弹性分布式内存呢？内存即使再大也有放不下...

0.1 321 0 1
2.Spark与Hadoop的对比
上一篇文章---Spark概述：https://www.jianshu.com/p/8f48abff7a5b 这篇文章主要是与MapReduce...

1583 0 0

1.Spark的概述
Spark，是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎...

380 0 1