作为公司的平台部门,需要给各个业务线提供平台的服务,那么如何建设一个满足各种需求的公司平台级OLAP分析服务呢。首先,一个开源项目在公司真正落地...
收录了19篇文章 · 38人关注
作为公司的平台部门,需要给各个业务线提供平台的服务,那么如何建设一个满足各种需求的公司平台级OLAP分析服务呢。首先,一个开源项目在公司真正落地...
华为宣布开源了CarbonData项目,该项目于6月3日通过Apache社区投票,成功进入Apache孵化器。CarbonData是一种低时延查...
本篇文章主要讲解phoenix与spark做整合,目的是将phoenix做存储,spark做计算层。这样就结合了phoenix查询速度快和spa...
本文根据2016年7月北京IBM Spark沙龙上的分享讲稿整理而成。 大家好,我是来自GrowingIO的数据工程师付旗,今天跟大家分享的是我...
checkpoint 相当于 cache的备胎;checkpoint的数据一般都会放在容错的文件系统当中,比如hdfs.一般在做checkpo...
1.优化数据结构 2.修改并行度 3.对数据做采样,对数据倾斜的key增加随机的前缀. 4.局部聚合+全局聚合 5.ETL 6.尽量不要产生sh...
Ui相关流程Spark集群启动之后,我们可以通过Web观查集群状态等信息,这一部分工作是Spark WebUi 模块实现。Servlet容器启动...
作者:Anil Madan** 译者:张玉宏 文源:LinkeDin 转自:CSDN**PayPal高级工程总监Anil ...
专题公告
Spark 源码解析, 优化, 实战