Spark Streaming 概述 Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很...
IDEA创建SparkSQL程序 IDEA中程序的打包和运行方式都和SparkCore类似,Maven依赖中需要添加新的依赖项: 用户自定义函数...
什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和Data...
RDD 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽...
什么是Spark Spark是一种基于内存的快速的,通用的,可扩展的大数据分析引擎 Spark内存模块 Spark特点 快:与Hadoop和Ma...
Scala 高级用法 样例类 样例类是一种特殊类,它可以用来快速定义一个用于保存数据的类(类似于Java POJO类),在后续要学习并发...
类和对象 scala是支持面向对象的,也有类和对象的概念。我们依然可以基于scala语言来开发面向对象的应用程序。 创建类和对象 语法 使用cl...
函数式编程 我们将来使用Spark/Flink的大量业务代码都会使用到函数式编程。下面的这些操作是学习的重点。 遍历( foreach ) 映射...
Array (数组) scala中数组的概念是和Java类似,可以用数组来存放一组数据。scala中,有两种数组,一种是定 长数组,另一种是变长...