更多精彩好文首发,尽在公众号《大数据阶梯之路》我是Akin,给大家整理了一些hive函数的高级用法,作为Hive进阶系列文章第四篇,其中有些SQL题目还是面试的重点考察用法,...

更多精彩好文首发,尽在公众号《大数据阶梯之路》我是Akin,给大家整理了一些hive函数的高级用法,作为Hive进阶系列文章第四篇,其中有些SQL题目还是面试的重点考察用法,...
更多精彩好文,尽在微信公众号《大数据阶梯之路》 一、数据仓库工程师是什么 首先,我要声明一点,数仓工程师不能有一个惯性思维,那便是把自己当成一个SQL工程师,即网络上调侃的:...
肝了几个晚上,梳理总结了一份万字长文超详述hive企业级优化文章,也整理了一份hive优化总结思维导图和hive优化详细PDF文档,有需要可关注公众号《大数据阶梯之路》找小编...
更多精彩好文,尽在微信公众号《大数据阶梯之路》 一、数据湖是什么 数据湖相当于一个汇集着来自各个异构数据源的原生态数据,不经过加工清洗数据,数据的格式也五花八门,结构化和半结...
更多精彩好文,尽在微信公众号《大数据阶梯之路》 一、前言 大家好,我是Akin,考虑写下这篇文章的时候我已在互联网大数据领域工作了几年,主要是给有意向从事大数据领域的朋友们一...
一、前言 hive优化除了有hql语句逻辑优化,hql参数调优等等,还有一个不起眼的细节容易被忽视掉,那便是hive数仓模型表的存储格式和压缩方式,hive底层数据是依托在h...
大家好,本篇聊一下数仓建设,讲一下面试常遇到的主题域与主题划分,更多精彩文章优先从微信公众号《大数据阶梯之路》首发,欢迎关注,公众号回复:大数据数仓资料,可以获取大数据数仓相...
以下内容多谢友友 @静静朵朵开[https://www.jianshu.com/u/8198dc2d4bad] @紫陌君的店[https://www.jianshu.com/...
反压是什么 反压是在实时数据处理中,数据管道某个节点上游产生数据的速度大于该节点处理数据速度的一种现象。反压会从该节点向上游传递,一直到数据源,并降低数据源的摄入速度。这在流...
准备工作 安装查看java的版本号,推荐使用java8。 安装Flink 在Mac OS X上安装Flink是非常方便的。推荐通过homebrew来安装。 启动Flink和进...
Homebrew是一款Mac OS上的软件包管理工具,通过它可以很方便的安装/卸载软件工具等,类似于Linux下的apt-get,node的npm等包管理工具。 Homebr...
Sublime Text 3是Sublime Text 2的升级版。Sublime Text 是一款流行的文本编辑器软件,有点类似于TextMate,跨平台,可运行在Linu...
一、iTerm2简介: Mac OS自带的终端,用起来虽然有些不太方便,界面也不够友好,iTerm2是一款相对比较好用的终端工具.iTerm2常用操作包括主题选择、声明高亮、...
终端输入以下命令,会自动进行安装,按照要求输入密码 安装完成后打开finalShell,点击文件夹图标打开连接管理器,右键conn,新建SSH连接,输入名称、主机、用户名及密...
0.自我介绍 答:1).简单的自我介绍,突出自己优势 2).项目介绍 3).项目中承担的工作和模块。 4).长的帅或漂亮,前四条都可以忽略 1. 什么是数据仓库?如何构建...
“老铁啊,我这有个微信公众号,帮我排下版呗,文档发过来了” “三篇,等下还有一篇,谢谢了” 习惯点开接受文件的我,一脸懵逼。有把大刀我就砍过去了。经常收到朋友这样的要求,开始...
前言 Presto是一款Facebook开源的MPP架构的OLAP查询引擎,可针对不同数据源执行大容量数据集的一款分布式SQL执行引擎。因为工作中接触到Presto,研究它对...
Sublime Text 3 for Mac 不仅仅是一款代码编辑神器,还是HTML和散文码字中最好用的文本编辑器,一款具有代码高亮、语法提示、自动完成且反应快速的编辑器软件...
背## 背景 为便于hive表数据上下游的管理(评估逻辑变更的影响、快速追溯数据来源),需要构建hive字段级别的数据血缘,hive本身提供提供了一个用于打印数据血缘的钩子类...
数仓分层 数仓简介 1. 数据仓库和数据库的区别 数据仓库: 数据量特别的大,TB~PB 级别会保留历史数据一般使用 OLAP 分析(On-Line Analytical P...