Spark Streaming 概述 Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flum...
Spark Streaming 概述 Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flum...
IDEA创建SparkSQL程序 IDEA中程序的打包和运行方式都和SparkCore类似,Maven依赖中需要添加新的依赖项: 用户自定义函数 用户自定义UDF函数 首先先...
什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查...
RDD 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表...
什么是Spark Spark是一种基于内存的快速的,通用的,可扩展的大数据分析引擎 Spark内存模块 Spark特点 快:与Hadoop和MapReduce响度,Spark...
Scala 高级用法 样例类 样例类是一种特殊类,它可以用来快速定义一个用于保存数据的类(类似于Java POJO类),在后续要学习并发编程和spark、flink这...
类和对象 scala是支持面向对象的,也有类和对象的概念。我们依然可以基于scala语言来开发面向对象的应用程序。 创建类和对象 语法 使用class来定义一个类 使用new...
函数式编程 我们将来使用Spark/Flink的大量业务代码都会使用到函数式编程。下面的这些操作是学习的重点。 遍历( foreach ) 映射( map ) 映射扁平化( ...
Array (数组) scala中数组的概念是和Java类似,可以用数组来存放一组数据。scala中,有两种数组,一种是定 长数组,另一种是变长数组 定长数组 定长数组指的是...
变量 声明变量 val/var 变量标识:变量类型 = 初始值 其中 Val表示的是不可改变的变量 Var表示的是可以重新赋值的变量 Notice: 变量写在变量名后面,且不...
Hive和Hbase的区别 Hive: 1. 数据仓库 Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询...
需求,使用MR实现读取hbase表数据,只要某一个列族的数据,并且写入到另一张表中。 Main Mapper Reducer HDFS导入数据到Hbase和Hbase导出到H...
JAVA类对应的数据模型HBaseConfigurationHBase配置类HBaseAdminHBase管理Admin类TableHBase Table操作类PutHBas...
1. RegionServer 架构 1.1 StoreFile 保存实际数据的物理文件,StoreFile以Hfile的形式存储在HDFS上。每个Store会有一个或多个S...
使用hbase shell可以进入一个shell命令行界面! 1. 其他操作 1.1 查看集群状态 使用status可以查看集群状态,默认为summary,可以选择‘simp...
注意事项:Hbase强依赖于HDFS以及zookeeper,所以安装Hbase之前一定要保证Hadoop和zookeeper正常启动 1. 下载对应的HBase的安装包 下载...
1. NoSQL简介 1.1 关系型数据库的查询瓶颈 当用户表的数据达到几千万甚至几亿级别的时候,对单条数据的检索将花费数秒甚至达到分钟级别。实际情况更复杂,查询的操作速度将...
1. Producer API 消息发送流程 Kafka的Producer发送消息采用的是异步发送的方式。在消息发送的过程中,涉及到了两个线程——main线程和Sender线...