背景介绍 在交互式分析场景下,很多时候除了固定字段之外,还会有一些动态字段的需求。比如,在游戏场景下,需要动态存储用户每个游戏的play时长。 ...
ReplicatedMergeTree是ClickHouse最常用的表引擎之一,该引擎和MergeTree一样都继承自MergeTreeData...
因为工作中用到calcite做SQL query engine,所以对calcite的源代码做了一些研究,其中VolcanoPlanner是非常...
在maintain我们的daily spark jobs时,发现有的时候一些spark jobs在insert数据到hive table时会在所...
本文基于spark streaming通过direct mode访问kafka的场景,从源码出发分析spark streaming如何实现数据读...
本文讨论跟执行内存密切相关的一个组件:TaskMemoryManager(下文简称TMM)。TMM是tungsten内存管理机制的核心实现类(t...
漫谈Spark内存管理(一)有提到问题:“ Spark中用到内存的地方有哪些?存储内存主要消耗在哪些地方?执行内存主要消耗在哪些地方?”。本文就...
Spark的join操作可能触发shuffle操作。shuffle操作要经过磁盘IO,网络传输,对性能影响比较大。本文聊一聊Spark的join...
在漫谈Spark内存管理(一)中,概述了Spark内存管理做的事情,并着重对unroll memory的概念做了解释及分析。本文继续讨论Spar...