
也可以看我的CSDN的博客https://blog.csdn.net/u013332124/article/details/88350345 Spark History Se...
本篇主要是介绍Hive在MySQL中存储的源数据的表结构。 Hive MetaStore 数据库表结构图 TBLS 记录数据表的信息 字段解释TBL_ID在hive中创建表的...
http://www.baidu.com/link?url=Ux-j4d-TfFW3oio-Um3uRtaTKeHhSAoko-oW9om029AhYzfe57VEbsWME...
1.问题陈述 当前HDFS每个块有3个副本是出于以下几个方面的考虑: 1)预防DataNode的故障 2)对MapReduce本地性任务提供更好的支持 3)通过在多个副本间选...
简介 HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为Java。它是Apache软件基金会Hadoop项目的一部...
一:前言 在某些场景下比如报表的产出,为了更加易于理解,往往会行列互置这样显示,又或者我们需要将某个相同键的值,所属的属性进行合并显示,这样都会用到行转列或者列转行。 二:行...
订单是电商体系的核心,有了订单才有业绩和盈利。 订单中包含商品、优惠、用户、收货信息、支付信息等一系列实时数据。通过订单中心,实现对线上订单、线下订单及第三方订单的管理,支持...
Kafka的基本介绍 Kafka是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志...
DDL 1.库 建库: 还有一个方式: 指定hdfs路径 查看数据库: 看数据库信息: 想多看点: 改库:(数据库名和数据库目录位置无法修改) 删库:(想跑路?)空库: 非空...
从这里学习的,讲的真好~ https://www.bilibili.com/video/av62992342/?p=41 单数据 MAP 1.作用 返回一个新RDD,该RDD...
1、RDD 持久化 Spark 中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时,每个节点的其它分区都可以使用...
1.开启Fetch抓取 Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,...
实战背景 新闻网站 版块 新闻页面 新用户注册 用户跳出 案例需求分析 每天每个页面的PVPV是Page View,是指一个页面被所有用户访问次数的总和,页面被访问一次就被记...
一、电商网站数据分析流程: (1)数据收集:这个阶段是收集基本的基本数据。通常,这些数据是事物的计数。这个阶段的目标是收集数据。 (2)处理数据到信息:这个阶段通常需要计数并...
hive学习之经典sql 50题 hive版 建表: 生成数据 vi /export/data/hivedatas/student.csv vi /export/data/h...
单纯的练习,是从尚硅谷大数据课程之Hive(2019新版)学的,反正我记录的都是我手敲过的。。。 1.空字段赋值 函数说明: NVL:给值为null的数据赋值。格式是NVL(...
线上查询及帮助命令 (2 个) man 查看命令帮助,命令的词典,更复杂的还有 info,但不常用。 help 查看 Linux 内置命令的帮助,比如 cd 命令。 文件和目...