![Avatar notebook default](https://cdn2.jianshu.io/assets/default_avatar/avatar-notebook-default-640f7dde88592bdf6417d8ce1902636e.png)
本文将介绍如何清洗nginx日志并存储到mysql中,附带azkaban定时任务协作完成对access.log的清洗任务。 1. 查看nginx...
话不多说,直接代码。概念还是spark sql中的概念。 方式一:使用java反射来推断RDD元数据 从文本文件拿到RDD对象->利用反射机制将...
Spark SQL执行引擎的一个实例,它与存储在Hive中的数据集成在一起。从类路径上的hive-site.xml读取Hive的配置。 1. j...
Spark SQL是用于结构化数据处理的Spark模块。 与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了...
实现一:spark shell 主要用于测试,在部署到集群之前,自己使用集合测试数据来测试流程是否通顺。 1.1 文件上传hdfs 首先先得把文...
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分...
准备工作 首先得安装scala:CentOS7.x 安装scala 伪集群搭建没做过的参考:CentOS7.x Hadoop集群搭建 下载解压 ...
Apache Spark](https://spark.apache.org/)是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在20...
[ 在spark shell中编写WordCount程序 . 执行步骤 将spark.txt文件上传到hdfs上 /usr/local had...
文集作者