8篇文章 · 10042字 · 1人关注
定义 SparkSql是Apache Spark大数据框架的一部分,主要用于处理结构化数据和对Spark数据执行类sql的查询,Spark为其提...
Spark Streaming是Spark核心api的一个拓展,可以实现高吞吐量/具备容错机制的实时流数据的处理Spark Streaming ...
针对以下wordCount的实现原理以画图的方式进行分析 代码 图解
在代码实现之前,先查看一下数据源是怎样的 截取了文本的第一段,已经对文本进行预处理,以空格将单词分割。 Java实现 输出结果 Scala实现 ...
在Spark中,每一个进程包含一个executor对象,一个executor包含一个线程池,每个线程执行一个tasks 线程池的好处就在于省去了...
Spark是基于弹性分布式数据集(RDD)的模型,具有良好的通用性、容错性与并行处理数据的能力那么什么是弹性分布式内存呢?内存即使再大也有放不下...
上一篇文章---Spark概述:https://www.jianshu.com/p/8f48abff7a5b 这篇文章主要是与MapReduce...
Spark,是一种通用的大数据计算框架,正如传统大数据技术Hadoop的MapReduce、Hive引擎,以及Storm流式实时计算引擎...
文集作者