一、Receiver模式(几乎不用) 1.Receiver模式原理图 2.Receiver模式理解: 在SparkStreaming程序运行起来...
一、基础知识 1.SparkStreaming简介 SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量...
一、SparkSQL基础知识 1.SparkSQL介绍 Hive是Shark的前身,Shark是SparkSQL的前身,SparkSQL产生的根...
高可用原理 Standalone集群只有一个Master,如果Master挂了就无法提交应用程序,需要给Master进行高可用配置,Master...
一、Spark Shell SparkShell是Spark自带的一个快速原型开发工具,也可以说是Spark的scala REPL(Read-E...
一、广播变量 Driver端new一个list,假设给每个Excutor发送100个task,每个task带一个list过来,100个task带...
一、Stage Spark任务会根据RDD之间的依赖关系,形成一个DAG有向无环图,DAG会提交给DAGScheduler,DAGSchedul...
服务器准备 Spark Yarn集群搭建基于HDFS,需参照【Hadoop学习笔记四:基于Yarn的MapReduce集群搭建】搭建好高可用的Y...
服务器准备 准备四台服务器Node01、Node02、Node03、Node04,其中Node01做Mater,Node02、Node03做Wo...
文集作者