MySQL进阶系列：为什么mysql使用B+树作为索引的数据结构

索引提高查询效率，就像我们看的书，想要直接翻到某一章，是不是不用一页一页的翻，只需要看下目录，根据目录找到其所在的页数即可。

在计算机中我们需要一种数据结构来存储这个目录，常见数据结构有哈希表，二叉查找树，二叉平衡树(AVL)，红黑树，那为什么Innodb和MyISAM选择b+树呢。

1. 哈希表

哈希表就是一个数组+链表，用下标0，1，2，3..... 表示其数据所在的位置。如果想要在哈希表中存放数据，首先用对这个数据进行散列算法（基本的就是取模运算），假如数组长度是13 ，进行模13之后是0-12，正好对应的数据的下标，如果计算出的下标一样的，就会在下标位置跟上链表。

image.png

缺点：

利用hash存储需要将所有的数据文件添加到内存，比较消耗内存空间。
hash的查找是等值查询，速度很快，但是各个数据间没有范围规律，但在实际工作中更多的是范围查询，hash就不太合适了。

不能直接说mysql不使用哈希表，而是要根据存储引擎来确定的，Memory存储引擎使用的就是哈希表

2. 二叉查找树

image.png

缺点：

如图，极端情况可能会出现倾斜的问题，最后变成链表结构。
造成树节点过深，从而增加查找的IO，而现在IO就是查找的瓶颈

3. 二叉平衡树-AVL

为了保持树的平衡，避免出现数据倾斜，需要进行旋转操作，通过左旋或者右旋最终保持最长子树和最短子树长度不能超过1，如果超过1就不是严格意义上AVL树了

image.png

缺点：

1.当数据量很大的时候，为了保持平衡，需要进行1-n次的旋转，这个旋转是比较浪费性能的，插入和删除效率极低，查询效率很高。

只有两个分支，数据量大的时候树的深度依然很深。

4. 红黑树

最长子树的不能超过最短子树的2倍，通过变色和旋转，在插入和查询上做了平衡

红黑树是avl树的变种，损失了部分查询性能来提高插入性能。

image.png

缺点：

同样是只有两个分支，数据量大的时候深度依然会很深

以上三种二叉树，随着数据的增多，最终都会出现节点过多的情况，而且他们有且仅有2个分支，那么IO的次数一样很多.

怎么解决仅有2个分支而且深度过深，这就有了B树，增加分支

5. B-Tree

首先不读B减树，读B树

所有键值分布在整棵树中。

搜索有可能在非叶子结点结束，在关键字全集内做一次查找，性能逼近二分查找。

每个结点最多拥有m个子树。

根节点至少有2个子树。

分支节点至少拥有m/2棵子树(除根节点和叶子节点外都是分支节点)。

所有叶子节点都在同一层，每个节点最多可以有m-1个key,并且以升序排列

image.png

如上图：（图中只是画出来一部分，实际上没有限制的，不止p1,p2,p3）

每个节点占用一个磁盘块，一个节点上有两个升序排列的关键字和三个指向子树根节点的指针，指针存储的是子节点所在的磁盘块地址。两个关键词划分成的三个范围域对应三个指针指向的子树的数据的范围域。以根节点为例，关键字为16和34，p1指针指向的子树的数据范围小于16，p2指针指向的子树的数据范围为16-34，p3指针指向的子树的数据范围大于34。

查找关键字28的过程：

根据根节点找到磁盘块1，读到内存中。【第一次磁盘I/O操作】
比较关键字28在区间(16，34)，找到磁盘块1的指针p2。
根据p2指针找到磁盘块3，读到内存。【第二次磁盘I/O操作】
比较关键字28在区间(25，31)，找到磁盘块3的指针p2。
根据指针p2找到磁盘块8，读到内存。【第三次磁盘I/O操作】
在磁盘块8中的关键字列表中找到关键字28，结束。

缺点：

每个节点都有key，同时包含data，而每个页存储空间是有限的，如果data很大的话会导致每个节点能存储的key的数量变小。
当存储的数据量很大的时候会导致深度变大，增加查询磁盘的io次数，进而影响查询性能。

6. B+树

B+树是在B树的基础上做的一种优化，变化如下：

B+树每个节点可以包含更多的节点，这个做的原因有两个，第一个原因是为了降低树的高度，第二个原因是将数据范围变成多个区间，区间越多，数据检索越快。

非叶子节点只存储key，叶子节点存储key和数据。

叶子节点两两指针互相连接(符合磁盘预读的特性)，顺序查询性能更高。

image.png

如上图：在B+树上有两个头指针，一个指向根节点，另一个指向关键字的最小叶子节点，而且所有叶子节点(及数据节点)之间是一种链式环结构，因此可以对B+树进行两种查找运算：一种是对于主键的范围查找和分页查找，另一种是从根节点开始的随机查找。

InnoDB和MyISAM中索引上的差异

1. InnoDB-主键索引

叶子节点存储的是具体的行数据

image.png

2. InnoDB-非主键索引

非主键索引的叶子节点存储的是主键值（所以查询数据基本要回表）

image.png

3. MyISAM

叶子节点存储的是行数据的地址，额外需要一次寻址，多一次IO

image.png

总结：为什么mysql使用的是B+树

准确的表述：为什么mysql的InnoDB和MyISAM存储引擎的索引使用的是B+树

hash表，等值查询是很快的，但是不满足常用的范围查找且相邻的两个值之间没有关系，而且hash比较消耗内存。
二叉树/平衡二叉树/红黑树等都是有且仅有2个分支，共性就是数据量大的时候树的深度变深，增加IO的次数。
B树会在节点上存储数据，这样一页存放的key的数量就会减少，增加树的深度。
B+树中非叶子节点去除了数据，这样就会增加一页中key的数量，而且叶子节点之间是通过链表相连，有利于范围查找和分页。

作者：纪先生
链接：https://juejin.cn/post/6994810803643744269
来源：掘金

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,271评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,275评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,151评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,550评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,553评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,559评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,924评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,580评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,826评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,578评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,661评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,363评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,940评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,926评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,156评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,872评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,391评论 2赞 342

MySQL进阶系列：为什么mysql使用B+树作为索引的数据结构

1. 哈希表

2. 二叉查找树

3. 二叉平衡树-AVL

4. 红黑树

5. B-Tree

6. B+树

InnoDB和MyISAM中索引上的差异

1. InnoDB-主键索引

2. InnoDB-非主键索引

3. MyISAM

总结：为什么mysql使用的是B+树

推荐阅读更多精彩内容