MattJacob - 简书

发简信

MattJacob

42
关注
1
粉丝
0
文章
0

字数
0

收获喜欢
2

总资产

IP属地：香港

jero_lei

实时数仓模型
为了计算一些实时指标，就在原来离线数仓的基础上增加了一个实时计算的链路，并对数据源做流式改造（即把数据发送到消息队列），实时计算去订阅消息队列，直接完成指标增量的计算，推送到...

495 0 1
小小毛同学

数据交换工具DataX使用（2）
1，下载 svn co http://code.taobao.org/p/datax 2，安装根据服务器安装软件情况可能需要安装下面软件 yum install ant y...

1780 0 6
鸿乃江边鸟

掌握spark 3.0中的查询计划
本文翻译自Mastering Query Plans in Spark 3.0[https://towardsdatascience.com/mastering-query-...

722 0 3
Kent_Yao

Spark SQL on Yarn with Cluster mode Fails Load hive-site.xml
问题描述运行spark sql on yarn的时候发现yarn client模式跑的好好的程序，换成yarn cluster模式就不正确了，原因是hive-site.xm...

1688 0 6
alexlee666

一文通俗理解Spark架构、Spark部署方式、配属配置优先级、Spark处理所提交的application的流程、Spark共享变量、Spark监听，以及master、driver、worke...
Spark是一种基于内存计算的计算引擎（通俗地说就是计算速度快），由于其可以将计算的中间结果存放在内存中，因此非常适合于迭代计算和交互式查询。一、Spark的四大核心组件和...

3238 0 13
烂泥_119c

hive字段级别血缘实现
背## 背景为便于hive表数据上下游的管理(评估逻辑变更的影响、快速追溯数据来源)，需要构建hive字段级别的数据血缘，hive本身提供提供了一个用于打印数据血缘的钩子类...

4590 4 18