Dostoevsky: 一种更好的平衡 LSM 空间和性能的方式

最近看了一篇 Paper，Dostoevsky: Better Space-Time Trade-Offs for LSM-Tree Based Key-Value Stores via Adaptive Removal of Superfluous Merging，让我觉得受益匪浅。里面作者详细的用公式列出来不同的 Compaction 策略对不同的操作的 I/O 影响，以及空间占用，从而指导作者做了相关的优化，构建了 Dostoevsky。

因为论文写得非常详细，我觉得也有必要好好的整理一下，顺带让自己重新学习下 RocksDB 相关的代码。不过在开始之前，还是先吐槽下这个 KV 的名字，竟然叫做 Dostoevsky，也就是大名鼎鼎的陀思妥耶夫斯基，也不觉得念出来多绕口。

Tiered Compaction vs Leveled Compaction

大家应该都知道，对于 LSM 来说，它会将写入先放到一个 memtable 里面，然后在后台 flush 到磁盘，形成一个 SST 文件，这个对写入其实是比较友好的，但读取的时候，很可能会遍历所有的 SST 文件，这个开销就很大了。同时，LSM 是多版本机制，一个 key 可能会被频繁的更新，那么它就会有多个版本留在 LSM 里面，占用空间。

为了解决这两个问题，LSM 会在后台进行 compaction，也就是将 SST 文件重新整理，提升读取的性能，释放掉无用版本的空间，通常，LSM 有两种 Compaction 方式，一个就是 Tiered，而另一个则是 Leveled。

上图是两种 compaction 的区别，当 Level 0 刷到 Level 1，让 Level 1 的 SST 文件达到设定的阈值，就需要进行 compaction。对于 Tiered 来说，我们会将所有的 Level 1 的文件 merge 成一个 Level 2 SST 放在 Level 2。也就是说，对于 Tiered 来说，compaction 其实就是将上层的所有小的 SST merge 成下层一个更大的 SST 的过程。

而对于 Leveled 来说，不同 Level 里面的 SST 大小都是一致的，Level 1 里面的 SST 会跟 Level 2 一起进行 merge 操作，最终在 Level 2 形成一个有序的 SST，而各个 SST 不会重叠。

上面仅仅是一个简单的介绍，大家可以参考 ScyllaDB 的两篇文章 Write Amplification in Leveled Compaction，Space Amplification in Size-Tiered Compaction，里面详细的说明了这两种 compaction 的区别。

Compaction Analyzing

无论是 Tiered 还是 Leveled，它们都各有优劣，我们也需要根据实际情况进行选择，直观来说，Leveled compaction 会有写放大问题，而 Tiered compaction 则会有空间放大问题。在 Dostoevsky 里面，作者定量分析了不同的 compaction 在不同 case 情况下面的 I/O 开销，以及两种 compaction 的空间占用情况。

术语	定义	单位
N	总的 entries 个数	entries
L	总的 Level 层数	levels
Lmax	最大的 level 层数	levels
B	在一个存储 block 里面的 entries 个数	entries
P	一个 block 的 buffer size	blocks
T	相邻两个 level 之间的 size 比
Tlim	Level L 相对于 Level 1 的 size 比
M	最大的给 Bloom filters 分配的内存	bits
Pi	在 Level i Bloom filters 的失败率	%
s	对于 range 查询的可选择率	%
R	没有结果的点查开销	I/Os
V	有结果的点查开销	I/Os
Q	range 查询的开销	I/Os
W	更新开销	I/Os
K	从 Level 1 到 Level L - 1 的 runs 个数范围	runs
Z	Level L 的 runs 个数范围	runs
μ	顺序读相比随机读速度差异
φ	写入相比读取的开销差异

这里说下 runs 的定义，根据 Wiki Log-structured merge-tree，可以知道一个 runs 就是一个或者多个有序不重叠的 SST 文件。从 Level 1 层开始，Leveled 的 runs 就是 1，而 Tiered 则可能是 T - 1。

对于 Level 0 来说，一个 buffer 包含 B * P 个 entries，通常来说，Level i 就有 B * P * T ^ i 个 entries。而大的 Level 择优 N * (T - 1) / T 个 entries。L 则是 ㏒T(N / (B * P) * (T - 1) / T) )。

对于两种不同的 compaction，下图列出了不同情况下面的 I/O 开销

Updates

对于 Update 来说，一个 entry 的开销其实是依赖于后台的 compaction merge 操作。对于最坏的情况，也就是 entry 在最大的 Level 上面有更新，那么只有这个 entry 新的版本到达了最大 Level，老的版本才会被删除。

对于 Tiered 来说，每次 merge 可以认为是 O(1) 的开销，那么总共就是 O(L) 的开销，因为每次 merge 我们不可能只移动一个 entry，而是会批量的处理 B 个 entries，所以总的开销可以认为是 O(L / B)。

而对于 Leveled 来说，因为 Level i 的一个 run 可能会跟上一层的 i + 1 T 个 runs 一起merge。所以，一个 entry 的开销可以认为是 O(T)，总共的开销就是 O(L * T / B)。

Point Lookups

对于点查来说，最坏的情况就是数据不存在，我们会在每层都进行检查，而每层的 Bloom filter 都返回 false，这样对于 Leveled 来说，开销就是 O(L)，而 Tiered 则是 O(L * T)。

通常，我们都给每个 entry 使用 10 bits 来作为 Bloom filter，这样 false positive rate （FPR）则接近 1%，实际中，每层的 Bloom filter 的 bits 都是一样的，所以最大层的 Bloom filter 会占用最多的内存，而最大层的 FPR Pi 则是 O(e ^ (-M / N))，因为其他所有的层的 FPRs 都有同样的 Pi，所以对于 Leveled 来说，它的开销是 O(e ^ (-M / N) * L)，而 Tiered 则是 O(e ^ (-M / N)) * L * T。

不过，现在已经有一些 Paper 指出，不一定每层的 Bloom filter bits 需要一致，譬如 Monkey 这篇 paper 就提到给不同的层设置不同的 Bloom filter bits，能有效的减少 I/O 开销，能将 Leveled 的减少到 O(e ^ (-M / N))， Tiered 减少到 O(e ^ (-M / N)) * T，这个后续会分析 Monkey。

而对于 RocksDB 来说，它提供了一个参数可以在最大层不使用 Bloom filter，对于一些业务来说，如果我们能确定要查询的 key 一定在 LSM 里面，那么最大层不使用 Bloom filter 可以有效的节省内存，这样我们也可以增大 bits，或者让 block cache 里面存放更多的 entries。

Range lookups

在 Dostoevsky 里面，long range lookups 的定义就是如果访问的 blocks 数量满足 s / B > 2 * Lmax，那么就认为是 long。

通常来说，range lookups 是不能用 Bloom filter 的，所以对于 Leveled 来说，short 总共需要 O(L) 的开销，而 Tiered 则是 O(L * T)。而对于 long 来说，Leveled 则是 O(s / B)，而 Tiered 则是 O(T * s / B)。

Space Amplification

对于空间放大，我们定义如下，amp = N / unq - 1，unq 就是 unique entries 的数量。

对于 Leveled 来说，最坏情况就是从 Level 1 到 L - 1，一个 entry 都有更新，那么在 L 层，就可能会有 1 / T 个废弃的 entry，所以总的空间放大就是 O(1 / T)，而对于 Tiered 来说，最坏情况就是从 Level 1 到 L - 1 的所有更新都 merge 到了 Level L，也就是 L 层包含所有的 entries 数据，这时候的放大就是 O(T)。

小结

上面简单的列出来两种不同的 Compaction 在不同的 case 下面的 I/O 开销，以及空间放大问题。简单来说，Leveled 会有写放大问题，而 Tiered 则会有读放大以及空间放大问题。对于 Dostoevsky 来说，它并没有单纯的采用 Leveled 或者 Tiered，而是采用了一种更加巧妙的方式。

Lazy Leveling

首先就是 Lazy Leveling，原理非常简单，也就是混合了 Tiered 以及 Leveled，在最大层使用 Leveled，而其它层使用 Tiered。这样最大层的 runs 就是 1，而其他层的则是 T - 1。另外，因为小的 Level 现在使用的是 Tiered，为了加速点查，Dostoevsky 为不同的 Level 的 Bloom filter 使用了不同的内存。

上图列出了使用 Lazy Leveling 跟其他两种 compaction 方式的对比，可以看到，在不同 case 下面的最坏开销其实还是挺不错的。譬如对于 update 来说，在 Level 1 到 L - 1 层，开销都是 O(T)，而 L 层则是 O(L)，那么总的开销就是 O((T + L) / B)。而对于空间放大来说，因为最大层有最多的 entries，所以整体的开销仍然接近于 O(1 / T)。

但是，虽然 Lazy Leveling 能在很多方面有折中，但在特定场景下面仍然赶不上 Tiered 或者 Leveled compaction，所以这世界并没有银弹，实际并不是只有一个单一的 compaction 策略。

Fluid LSM-Tree

在 Lazy Leveling 基础上面，Dostoevsky 引入了 Fluid LSM-Tree，其实原理也很简单，相比于 Lazy Leveling 最大层是 Leveled，其它层是 Tiered，Fluid 使用了一个可调解的方式，在最大层使用最多 Z runs，而其它层最多使用 K runs。

可以发现：

Z = 1， K = 1，就是 Leveled Compaction
Z = T - 1， K = T - 1，就是 Tiered Compaction
Z = 1， K = T - 1，就是 Lazy Leveling

上图是使用 Fluid 模型之后不同 case 的开销，公式太复杂就不解释了。既然有了 Fluid，下一个问题就显而易见了，我们如何去确定 Z 和 K，这就需要 tuning 了。这方面 Dostoevsky 貌似也没有啥黑科技，就是不断调整 Z，K 和 T，在不同的应用场景去测试，从而找到一个比较优的配置。

结语

LSM 虽然是现今主流的一种存储引擎实现方式，但它仍然有一些不足，而业界也一直在对它进行优化，用以适配更多的场景。在 TiKV，我们也在基于 RocksDB 做另一款存储引擎，如果你对这方面感兴趣，欢迎联系我 tl@pingcap.com。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,098评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,213评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,960评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,519评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,512评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,533评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,914评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,804评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,563评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,644评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,350评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,933评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,908评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,146评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,847评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,361评论 2赞 342