[TOC]
1. 数据页的物理结构
数据页是一个非常重要的概念,那在磁盘中是如何存储一个一个的数据页?
大量的数据页是按顺序一页一页存放的,然后两两相邻的数据页之间会采取双向链表的格式互相引用。
在磁盘文件里就是一段数据,大概类似为:
然后每一个数据页会存储一行一行的数据,也就是平时我们在表里插入的一行一行的数据就会存储在数据页里,数据页里的每一行数据都是依照主键大小进行排序存储。同时每一行数据都会有指针指向下一行数据的位置,组成单向链表。
2. 没有索引的前提下,数据库如何根据查询语句搜索数据的?
我们已经知道数据页的大概结构,其实每个数据页里还会有一个页目录。
页目录里面是根据数据行主键存放的一个目录。同时数据行被分散存储到不同的槽位里面,所以,实际上每个数据页的目录里,就是这个页里面每个主键跟所在槽位的映射关系。
注意,槽位里存储的是多行数据行,而不是一行数据行。
假设现在根据主键查询一条数据,此时表里的数据不多,刚好都在一个数据页里。首先把数据页加载到缓存页中,再到页目录里根据主键进行二分查找,通过比较查询主键和页目录主键(槽位里的最小主键),快速定位数据行所在的槽位,然后到槽位里遍历每一行数据,快速找到该主键对应的数据。
如果是非主键查询,没办法根据主键去页目录进行二分法查找,则需要根据数据页的双向链表不停查找,导致全表扫面,效率非常低下。
3. 不断在表中插入数据时,物理存储是如何进行页分裂
首先我们了解到插入的数据,会进入数据页的内部,他们会组成一个单向链表,大概的结构如下:
行类型为2,证明就是最小一行,普通数据行的类型为0,最大数据行类型为3。
当数据越来越多,一个数据页放不下了,就会再搞一个新的数据页来存放,组成一个双向链表。
索引运作的核心基础是,要求后面的数据页的主键大于前面数据页的主键。如果插入数据的主键是自增的,那这个很好保证。
如果不是自增的,就有可能出现后数据页的主键小于前数据页的主键值。
此时就会出现一个页分裂
的过程。简单来讲,就是如果发现插入后数据页的主键值比前数据页的主键值要小,就会把主键值大的数据行以到新的数据页,把新插入的主键值较小的移到上一个数据页。
移动前:
移动后:
这样的一个过程就是 页分裂。
注明:
学习笔记总结于公棕号:儒猿技术窝。感兴趣的同学可以前往关注。