主要内容:
- 索引本质
- MySQL索引实现
前言
索引是存储引擎快速查找记录的一种数据结构,它对于性能非常关键,尤其是对于表数据量较大的情况,索引对性能的影响愈发重要。所以了解索引对于性能优化极其重要。
索引本质
MySQL存储引擎使用索引的方法,类似于读一本书时如果想查找特定的主题的话,需要先看书的目录,查找对应的页码,翻到指定页码查看内容。即首先在索引中查找对应索引值,然后根据索引记录查找对应的数据行。
MySQL支持多种索引,例如B树索引、哈希索引、全文索引等,本文重点介绍B树索引。
B+树索引
MySQL一般以B+树作为其索引结构,具体有什么特点呢?
- 所有值按顺序存储,每个叶子到根的距离相同
- 非叶子节点不存储数据,只存储指针索引;叶子节点存储所有数据,不存储指针
- 每个叶子节点都有指向相邻下一个叶子节点的指针,即顺序访问指针,如图所示
B-Tree索引能够提高区间访问的性能。因为存储引擎不需要全表扫描,例如要找key为20的数据,从根节点开始搜索,根节点存储了指向子节点的指针,这个指针定义了子节点中值的上限、下限;通过比较节点值和需要查找的值,按着顺序访问路线一次性访问所有数据节点。
局部性原理和磁盘预读
那么为什么数据库系统普遍使用B+树作为索引结构,而不选例如红黑树其他结构呢?首先要先来介绍下局部性原理和磁盘预读的概念。
一般来说,索引本身较大,不会全部存储在内存中,会以索引文件的形式存储在磁盘上。所以索引查找数据过程中就会产生磁盘IO操作,而磁盘IO相对于内存存取非常缓慢,因此索引结构要尽量减少磁盘IO的存取次数。
为了减少磁盘IO,磁盘往往会进行数据预读,会从某位置开始,预先向后读取一定长度的数据放入内存,即局部性原理。因为磁盘顺序读取的效率较高,不需要寻道时间,因此可以提高IO效率。
预读长度一般为页的整数倍,主存和磁盘以页作为单位交换数据。当需要读取的数据不在内存时,触发缺页中断,系统会向磁盘发出读取磁盘数据的请求,磁盘找到数据的起始位置并向后连续读取一页或几页数据载入内存,然后中断返回,系统继续运行。而一般数据库系统设计时会将B+树节点的大小设置为一页,这样每个节点的载入只需要一次IO。
MySQL索引实现
MySQL存在多种存储引擎的选择,不同存储引擎对索引的实现是不同的,本章着重对常见存储引擎InnoDB和MyISAM存储引擎的索引实现进行讨论。
InnoDB索引实现
使用B+树作为索引结构,数据文件本身就是索引文件。数据文件按照B+树的结构进行组织,叶节点的data域存储完整的数据记录,索引的key即为表的主键。下图为主键索引示意图(盗图一波)。聚集索引使得搜索主键非常高效。
数据文件本身按主键索引,因此InnoDB必须要有主键。没有主键怎么指定主键?
下图为辅助索引示意图,InnoDB辅助索引的data域存储的是主键的值。搜索辅助索引需要先根据辅助索引获取到主键值,再根据主键到主索引中获取到对应的数据记录。
MyISAM索引实现
同样也是使用B+树作为索引结构,叶子节点data域存储的是数据记录的地址。数据文件和索引文件是分别存储在xxx.MYD
和xxx.MYI
(xxx表示数据表名),索引文件xxx.MYI
保存数据记录的地址,具体可参考MySQL存储引擎简介。如图所示(盗了个图),为主索引的示意图。MyISAM中检索索引算法为:首先按照B+树搜索算法搜索,如果找到指定的key,取出其data域的值,再以data域值为地址查找对应的数据记录。因此MyISAM的索引方式也称为非聚集索引。
参考文章
MySQL索引背后的数据结构及算法原理