hadoop 大数据底层理解 - 专题

投稿

收录了104篇文章 · 18人关注

[Delta][SQL] Delta开源付费功能，最全分析ZOrder的源码实现流程
欢迎关注公众号“Tim在路上”通常为提高数据处理的效率，计算引擎要实现谓词的下推，而存储引擎可以根据下推的过滤条件尽可能的跳过无关数据或文件。不...

0.2 Tim在路上 0 1
[LakeHouse] Delta Lake全部开源，聊聊Delta的实现架构
欢迎关注公众号“Tim在路上”刚刚结束的Data + AI summit上，Databricks宣布将Delta Lake全部开源。目前在La...

0.4 Tim在路上 0 2

[LakeHouse] 数据湖之Iceberg一种开放的表格式
欢迎关注公众号“Tim在路上”今天来闲谈下数据湖三剑客中的iceberg。 Iceberg项目2017年由Netflix发起，它是在2018年...

0.2 Tim在路上 0 1
[SPARK][CORE] 面试问题之 3.2新的特性Push-based Shuffle源码解析
欢迎关注公众号“Tim在路上” Spark 3.2为spark shuffle带来了重大的改变，其中新增了push-based shuffle机...

0.2 Tim在路上 0 1
[SPARK][CORE] 面试问题之谈一谈Push-based shuffle
欢迎关注公众号“Tim在路上”在Spark3.2中引入了领英设计的一种新的shuffle方案，今天我们先来了解下其大致的设计原理，之后会再分析其...

0.2 Tim在路上 0 1
[SPARK][CORE] 面试问题之什么是 external shuffle service？
欢迎关注公众号“Tim在路上”在讨论external shuffle service的具体实现之前，我们先来回顾下spark shuffle的大...

0.2 Tim在路上 0 1
[SPARK][CORE] 面试问题之 Shuffle reader 的细枝末节（下）
欢迎关注公众号“Tim在路上” 在Spark中shuffleWriter有三种实现，分别是bypassMergeSortShuffleWrite...

0.2 Tim在路上 0 1

[SPARK][CORE] 面试问题之 Shuffle reader 的细枝末节（上）
欢迎关注微信公众号“Tim在路上”之前我们已经了解了shuffle writer的详细过程，那么生成文件后会发生什么呢？以及它们是如何被读取呢？...

1.1 Tim在路上 0 5
[SPARK][CORE] 面试问题之UnsafeShuffleWriter流程解析（下）
欢迎关注微信公众号“Tim在路上”Unsafe Shuffle的实现在一定程度上是Tungsten内存管理优化的的主要应用场景。其实现过程实际上...

0.2 Tim在路上 0 1
[SPARK][CORE] 面试问题之UnsafeShuffleWriter流程解析（上）
欢迎关注公众号“Tim在路上”在说UnsafeShuffleWriter 前，需要先细谈下Tungsten对内存管理的优化。当然这里就不展开讲了...

0.2 Tim在路上 0 1