一、核心组件 spark是一个典型的master-slave主从架构,有一些核心组件:Driver和Executor、Master和Worker...
在知乎看到文章说,学习spark分为两个方向,一个是数据平台开发,一个是数据处理开发,如果用spark的话做数据处理,日常用得最多的就是spar...
一、 Q&A Q1:什么是维度?维就可以相当于角度,当说按什么维度看数据就是你想从什么角度分析数据。Q2:什么是次留用户,7日留存?次留用户指的...
此篇内容:hive自定义函数UDF、UDTF,压缩存储方式,hive优化、hive实际编程基本涵盖了hive基础及常用场景,输出这篇单纯是为了忘...
一、安装hive前提条件 hive运行在hadoop集群上,所以先要确保你的hadoop集群已经安装完毕并且可正常启动运行。如果没安装好hado...
Spark SQL主要用作离线海量数据分析Spark Streaming主要用作对数据实时处理Spark的工作原理与MapReduce是如出一辙...
时间函数在日常工作中用得很多,总结一波。以下在日常工作平台anyloader任务中常用 一、mysql 涉及到函数格式化的参数及含义 参数含义%...
一、下载地址 http://archive.apache.org/dist/hbase/[http://archive.apache.org/d...
一、简介 二、安装 在安装Scala前你必须确保你已经安装了jdk1.8版本了,并配置好了Java环境变量。之后去官网下载对应版本的scala安...
文集作者