BigData - 文集

BigData

18篇文章 · 9508字 · 2人关注

Spark 从零到开发（八）nginx日志清洗并持久化实战
本文将介绍如何清洗nginx日志并存储到mysql中，附带azkaban定时任务协作完成对access.log的清洗任务。 1. 查看nginx...

1.4 5225 0 11
Spark 从零到开发（七）Spark SQL和DataFrame
话不多说，直接代码。概念还是spark sql中的概念。方式一：使用java反射来推断RDD元数据从文本文件拿到RDD对象->利用反射机制将...

0.7 3434 0 2

Spark 从零到开发（六）HiveContext
Spark SQL执行引擎的一个实例，它与存储在Hive中的数据集成在一起。从类路径上的hive-site.xml读取Hive的配置。 1. j...

5176 0 0
Spark 从零到开发（五）初识Spark SQL
Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同，Spark SQL提供的接口为Spark提供了...

4108 0 1
Spark 从零到开发（四）单词计数的三种环境实现
实现一：spark shell 主要用于测试，在部署到集群之前，自己使用集合测试数据来测试流程是否通顺。 1.1 文件上传hdfs 首先先得把文...

0.1 4569 0 1
Spark 从零到开发（三）初识RDD
RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分...

0.1 3056 0 8
Spark 从零到开发（二）Spark安装和集群搭建
准备工作首先得安装scala：CentOS7.x 安装scala 伪集群搭建没做过的参考：CentOS7.x Hadoop集群搭建下载解压 ...

3863 0 0

Spark 从零到开发（一）初识
Apache Spark](https://spark.apache.org/)是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在20...

2701 0 0
Spark本地/集群执行wordcount程序
[ 在spark shell中编写WordCount程序 . 执行步骤将spark.txt文件上传到hdfs上 /usr/local had...

3130 0 0