背景介绍 在交互式分析场景下,很多时候除了固定字段之外,还会有一些动态字段的需求。比如,在游戏场景下,需要动态存储用户每个游戏的play时长。 这种场景下,我们希望在一张表中...
ReplicatedMergeTree是ClickHouse最常用的表引擎之一,该引擎和MergeTree一样都继承自MergeTreeData, 和MergeTree共享相...
ClickHouse在计算层做了非常细致的工作,竭尽所能榨干硬件能力,提升查询速度。它实现了单机多核并行、分布式计算、向量化执行与SIMD指令、代码生成等多种重要技术。 多核...
背景 ClickHouse 作为性能卓越的OLAP引擎,有丰富的数据分析函数。公司增长分析侧使用 ClickHouse 的 windowFunnel 函数进行自定义漏斗和路径...
前言 Druid Coordinator 服务在整个Druid架构中的主要作用是协调Segments在历史节点之间的分布。其主要功能包括是segments在historica...
cmake是一种跨平台的编译工具,比make更为高级,使用起来要方便的多。cmake主要是编写了cmakelists.txt文件,然后用cmake命令将cmakelists....
因为工作中用到calcite做SQL query engine,所以对calcite的源代码做了一些研究,其中VolcanoPlanner是非常重要的一个模块,本文对最近的一...
在maintain我们的daily spark jobs时,发现有的时候一些spark jobs在insert数据到hive table时会在所有tasks完成后hang住很...
Prologue 前面陆陆续续写了几篇关于Flink的浅显的小文章,其中多次提到了“异步屏障快照(asychronous barrier snapshot, ABS)算法”这...
大概谁都没有想到,周杰伦的新歌《说好不哭》会如此一波三折。 一开始,强势刷屏,快速售出,连QQ音乐都一度整崩溃了。 可第二天,不同的声音出来了,说得狠一点的,认为《说好不哭》...
本文基于spark streaming通过direct mode访问kafka的场景,从源码出发分析spark streaming如何实现数据读取的限流和反压。 我们知道,K...