![Avatar notebook default](https://cdn2.jianshu.io/assets/default_avatar/avatar-notebook-default-640f7dde88592bdf6417d8ce1902636e.png)
参考《数据库事务处理的艺术》和《分布式数据库原理、架构与实践》,以及https://www.gatevidyalay.com/tag/seria...
官网地址:https://parquet.apache.org/docs[https://parquet.apache.org/docs]编码:...
官网地址:https://trino.io/docs/current/[https://trino.io/docs/current/]参阅书目《...
本文是对《ClickHouse原理解析与应用实践》一书的概括性总结,整体章节和结构尊重原文,由于书的出版在2019年,版本较旧,所以对应部分有修...
LSM-Tree是现代NoSQL, NewSQL数据组织和索引的基本结构,一般认为是从1996年Acta Inf.的一篇文章为起源,在随后至今的...
最近在研究kafka,原版论文见我的另一篇文章,本文对kafka2.7最新版的设计文档做一个概括性解读,原文见官网的设计文档。 1. Motiv...
Spark作业运行在SparkContext中,作业包含若干个Stages,构成一个DAG。Spark作业运行的高层抽象是一个driver实体,...
Spark相对于MR的一个先进点就是可以基于内存的高速运算,在Spark任务中,将那些多次复用的rdd进行缓存,可以有效的提升运算效率。 Spa...
最近做数据中台有一段时间了,一直被Yarn的集群资源分配所困扰。具体体现在,spark on yarn 提交任务,任务状态长时间停留在ACCEP...
文集作者