ans76 - 简书

发简信

ans76

60
关注
2
粉丝
0
文章
0

字数
0

收获喜欢
5

总资产

IP属地：北京

祝威廉

利用 Spark DataSource API 实现Rest数据源
Spark DataSource API 的提出使得各个数据源按规范实现适配，那么就可以高效的利用Spark 的计算能力。典型如Parquet,CarbonData,Post...

10479 4 17
叫我小名

ORC原理及查询优化
Hive从0.11版本开始提供了ORC的文件格式，ORC文件不仅仅是一种列式文件存储格式，最重要的是有着很高的压缩比，并且对于MapReduce来说是可切分（Split）的。...

7479 0 7
时待吾

parquet学习总结
深入分析Parquet列式存储格式 Parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发，2015年5月从Apache的孵化器里毕业成为A...

19472 1 16
LittleMagic

聊聊数据仓库中的缓慢变化维度（SCD）
虽然我的主业是实时计算和批量计算，并不是数仓，但是在日常工作中绝对少不了与数仓打交道。并且我也算是参与过离线数仓建设的，维度建模的基础还是不能忘。本文就作为一篇抄书笔记吧。 ...

4940 1 13
LittleMagic

高吞吐量Flume Agent调优小结
前言所有电商企业在一年一度的双11都要迎来大促与大考，我司也不例外（所以最近真是前所未有的忙乱）。前段时间在配合执行全链路压测的过程中，发现平时不太关注的Flume配置可能...

3003 5 9
haitaoyao

Facebook Presto Connector 开发 [1]
Presto 是Facebook 为了交互式查询数据开发的一个查询引擎. 前些年开源. 最近开发了一些connector , 因此想记录一下presto plugin 的开发...

5885 1 4
祝威廉

如何基于Yarn开发你的分布式程序
前一段时间自己开发了一套基于Yarn的容器调度系统，这篇文章就是分享其中的一些经验。前言这篇文章不会具体教你如何使用Yarn的API,但是会教你我实践过后的一些经验。接下...

2379 2 12 3
祝威廉

Spark 多个Stage执行是串行执行的么？
上次在做内部培训的时候，我讲了这么一句：一个Job里的Stage都是串行的，前一个Stage完成后下一个Stage才会进行。显然上面的话是不严谨的。看如下的代码：这里...

9508 5 30 3