1.InnoDB的版本
MySQL 5.1 → InnoDB 1.0X
MySQL 5.5 → InnoDB 1.1X
MySQL 5.6 → InnoDB 1.2X
2.InnoDB体系架构
InnoDB存储引擎有多个内存块,可以认为这些内存块组成了一个大的内存池,负责如下工作:
- 维护所有进程/线程需要访问的多个内部数据结构。
- 缓存磁盘上的数据,方便快速地读取,同时在对磁盘文件的数据修改之前在这里缓存。
- 重做日志(redo log)缓冲。
......
后台线程的主要作用是负责刷新内存池中的数据,保证缓冲池中的内存缓存的是最近的数据。此外将已修改的数据文件刷新到磁盘文件,同时保证在数据库发生异常的情况下,InnoDB能恢复到正常运行状态。
①后台线程
Master Thread:非常核心的后台线程,主要负责将缓冲池中的数据异步刷新到磁盘,保证数据的一致性。包括脏页的刷新、合并插入缓冲(INSERT BUFFER)、UNDO页的回收等。
-
IO Thread:InnoDB中大量使用了AIO(Async IO)来处理写IO请求,IO Thread的工作主要是负责这些IO请求的回调(call back)处理。
1.0版本之前,有4个IO Thread:write、read、insert buffer、log IO thread。
1.0.x版本开始,read thread 和 write thread分别增大到了4个,分别使用innodb_read_io_threads和innodb_write_io_threads参数进行设置。
- Purge Thread:回收已经使用并分配的undo页。(该功能1.1前是在master thread中完成的。1.1开始独立到单独的线程中进行。1.1只支持1个purge thread,1.2开始支持多个)
- Page Cleaner Thread:1.2.x引入的。作用是将之前版本中脏页的刷新操作都放入到单独的线程中来完成,减轻Master Thread的工作及对于用户查询线程的阻塞。
②内存
-
缓冲池:一块内存区域,通过内存的速度来弥补磁盘速度较慢对数据库性能的影响。
读取:从磁盘读到的页放在缓冲池中(将页“FIX”在缓冲池中),下次读取相同页时,称该页在缓冲池被命中,直接读取该页。
修改:首先修改在缓冲池中的页,再以一定的频率刷新到磁盘上(不是每次页发生更新时触发)。
1.0.x版本开始,允许有多个缓冲池实例,每个页根据哈希值平均分配到不同缓冲池实例中。
-
LRU List、Free List 和 Flush List:
缓冲池中的页默认大小为16KB。
缓冲池通过LRU(Last Recent Used,最近最少使用)算法进行管理。 最频繁使用的页在LRU列表的前端,当缓冲池不能存放新读取到的页时,将首先释放LRU列表中尾端的页。InnoDB对传统的LRU做了一些优惠,LRU列表中加入了midpoint位置。新读取到的页,虽然是最新访问的页,但并不是直接放入LRU列表的首部,而是放入到LRU列表的midpoint位置。midpoint位置通过innodb_old_bolcks_pct控制(百分比)。到mid位置后多久才会被加入到LRU列表的热端,通过innodb_old_bolcks_time设置。
1.0.x版本开始支持压缩也的功能。对于非16KB的页,通过unzip_LRU列表进行管理。通过show engine innodb status 观察,LRU len 包含 unzip_LRU len。
LRU列表中的页被修改后,称该页为脏页,即缓冲池中的页和磁盘上的页的数据产生了不一致。这时数据库会通过checkpoint机制将脏页刷新回磁盘,而Flush列表中的页即为脏页列表。脏页既存在于LRU列表中,也存在于Flush列表中。LRU用来管理缓冲池中的页的可用性,Flush用来管理将页刷新回磁盘,二者互不影响。
-
重做日志缓冲:
InnoDB存储引擎先将重做日志信息放入到这个缓冲区,然后按一定频率将其刷新到重做日志文件。默认大小为8M,可通过innodb_log_buffer_size控制。
将重做日志缓冲中的内容刷新到磁盘的重做日志文件中的情况:
1)Master Thread 每一秒将重做日志缓冲刷新到重做日志文件。
2)每个事务提交时会将重做日志缓冲刷新到重做日志文件。
3)当重做日志缓冲池剩余空间小于1/2时,会将重做日志缓冲刷新到重做日志文件。
额外的内存池:每个缓冲池中的帧缓冲还有对应的缓冲控制对象(记录了一些诸如LRU、锁、等待信息)的内存需要从额外内存池中申请。因此当申请了很大的InnoDB缓冲池时,也应考虑相应的增加这个值。
3.Checkpoint技术
倘若每次一个页发生变化,就将新页的版本刷新到磁盘,那么这个开心是非常大的。为了避免发生数据丢失问题,事务数据库系统普遍采用了write ahead log 策略,即:当事务提交时,先写重做日志,再修改页。当宕机而导致数据丢失时,通过重做日志来完成数据的恢复,这也是ACID中D(Durability 持久性)的要求。
Checkpoint技术的目的是解决以下几个问题:
- 缩短数据库的恢复时间。(宕机时,只需要对Checkpoint后的重做日志进行恢复)
- 缓冲池不够用时,将脏页刷新到磁盘。(缓冲池不够用时,会根据LRU算法溢出页,若次页为脏页,需要强制执行Checkpoint,将脏页刷回磁盘)
- 重做日志不可用时,刷新脏页。(事务数据库系统对重做日志的设计都是循环使用的,并不让其无限增大。)
InnoDB是通过LSN(Log Sequence Number)来标记版本的。LSN是8字节的数字,单位是字节。每个页、重做日志、Checkpoint中都有LSN。
InnoDB有两种CheckPoint:
- Sharp Checkpoint;(发生在数据库关闭时将所有的脏页都刷新回磁盘)
- Fuzzy Checkpoint;(只刷新一部分脏页)
发生Fuzzy Checkpoint的几种情况:
- Master Thread Checkpoint;
- FLUSH_LRU_LIST Checkpoint;
- Async/Sync Flush Checkpoint;(重做日志文件不可用的情况)
- Dirty Page too much Checkpoint;
4.Master Thread工作方式
①1.0.x之前的Master Thread
具有最高的线程优先级别。内部由多个循环组成:主循环(loop)、后台循环(background loop)、刷新循环(flush loop)、暂停循环(suspend loop)。
伪代码:
void master_thread() {
goto loop;
loop:
for(int i = 0; i < 10; i++) {
thread_sleep(1) //sleep 1 second
//每秒一次的操作包括以下几点
//1-1日志缓冲刷新到磁盘,即使这个事务还没有提交(总是)
do log buffer flush to disk
//判断前一秒内发生的IO次数是否小于5次
if(last_one_second_ios < 5)
//1-2合并插入缓冲(可能)
do merger at most 5 insert buffer
//缓冲池中脏页的比例超过了配置文件设置的阈值
if(buf_get_modified_ratio_pct > innodb_max_dirty_pages_pct)
//1-3至多刷新100个InnoDB的缓冲池中的脏页到磁盘(可能)
do buffer pool flush 100 dirty page
if(no user activity)
//1-4如果当前没有用户活动,则切换到background loop(可能)
goto backgroud loop
}
//每10秒的操作包括以下几点
//判断过去10秒之内磁盘的IO操作是否小于200次
if(last_ten_second_ios < 200)
//10-1刷新100个脏页到磁盘(可能的情况下)
do buffer pool flush 100 dirty page
//10-2合并至多5个插入缓冲(总是)
do merge at most 5 insert buffer
//10-3将日志缓冲刷新到磁盘(总是)
do log buffer flush to disk
//10-4删除无用的undo页,最多尝试回收20个undo页(总是)
do full purge
//10-5刷新100个或者10个脏页到磁盘(总是)
//缓冲池中的脏页比例超过70%
if(buf_get_modified_ratio_pct > 70%)
//刷新100个脏页
do buffer pool flush 100 dirty page
else
//刷新10个脏页到磁盘
buffer pool flush 10 dirty page
goto loop
background loop:
//删除无用的undo页(总是)
do full purge
//合并20个插入缓冲(总是)
do merge 20 insert buffer
if not idle:
//跳回到主循环(总是)
goto loop;
else:
//不断刷新100个页直到符合条件(可能,跳转到flush loop中完成)
goto flush loop
flush loop:
//不断刷新100个页
do buffer pool flush 100 dirty page
if(buf_get_modified_ratio_pct > innodb_max_dirty_pages_pct)
goto flush loop
//切换到suspend loop,将Master Thread挂起,等待事件的发生
goto suspend loop
suspend loop:
suspend_thread()
waiting event
goto loop;
}
②1.2.x之前的Master Thread
提供了参数innodb_io_capacity,用来标识磁盘IO的吞吐量,默认值为200。
提供了参数innodb_adaptive_flushing(自适应地刷新),该值影响每秒刷新脏页的数量。
提供了innodb_purge_batch_size,可以控制每次full purge回收的undo页的数量,默认值为20。
伪代码
void master_thread() {
goto loop;
loop:
for(int i = 0; i < 10; i++) {
thread_sleep(1) //sleep 1 second
//每秒一次的操作包括以下几点
//1-1日志缓冲刷新到磁盘,即使这个事务还没有提交(总是)
do log buffer flush to disk
//判断前一秒内发生的IO次数是否小于5%
if(last_one_second_ios < 5% innodb_io_capacity)
//1-2合并插入缓冲(可能)
do merger 5% innodb_io_capacity insert buffer
//缓冲池中脏页的比例超过了配置文件设置的阈值
if(buf_get_modified_ratio_pct > innodb_max_dirty_pages_pct)
//1-3至多刷新innodb_io_capacity个InnoDB的缓冲池中的脏页到磁盘(可能)
do buffer pool flush 100% innodb_io_capacity dirty page
//启用自适应刷新
else if enable adaptive flush
//刷新期望数量的脏页
do buffer pool flush desired amount dirty page
if(no user activity)
//1-4如果当前没有用户活动,则切换到background loop(可能)
goto backgroud loop
}
//每10秒的操作包括以下几点
//判断过去10秒之内磁盘的IO操作是否小于innodb_io_capacity次
if(last_ten_second_ios < innodb_io_capacity)
//10-1刷新innodb_io_capacity个脏页到磁盘(可能的情况下)
do buffer pool flush 100% innodb_io_capacity dirty page
//10-2合并至多5% innodb_io_capacity个插入缓冲(总是)
do merge 5% innodb_io_capacity insert buffer
//10-3将日志缓冲刷新到磁盘(总是)
do log buffer flush to disk
//10-4删除无用的undo页,最多尝试回收innodb_purge_batch_size个undo页(总是)
do full purge
//10-5刷新innodb_io_capacity个或者10% innodb_io_capacity个脏页到磁盘(总是)
//缓冲池中的脏页比例超过70%
if(buf_get_modified_ratio_pct > 70%)
//刷新innodb_io_capacity个脏页
do buffer pool flush 100% innodb_io_capacity dirty page
else
//刷新10%的脏页到磁盘
buffer pool flush 10% innodb_io_capacity dirty page
goto loop
background loop:
//删除无用的undo页(总是)
do full purge
//合并innodb_io_capacity个插入缓冲(总是)
do merge 100% innodb_io_capacity insert buffer
if not idle:
//跳回到主循环(总是)
goto loop;
else:
//不断刷新innodb_io_capacity个页直到符合条件(可能,跳转到flush loop中完成)
goto flush loop
flush loop:
//不断刷新innodb_io_capacity个页
do buffer pool flush 100% innodb_io_capacity dirty page
if(buf_get_modified_ratio_pct > innodb_max_dirty_pages_pct)
goto flush loop
//切换到suspend loop,将Master Thread挂起,等待事件的发生
goto suspend loop
suspend loop:
suspend_thread()
waiting event
goto loop;
}
③1.2.x的Master Thread
伪代码
if InnoDB is idle
//之前版本中每10秒的操作
srv_master_do_idle_tasks();
else
//之前版本中每秒的操作
srv_master_do_active_tasks();
对于刷新脏页的操作,从Master Thread线程分离到一个单独的Page Cleaner Thread,从而减轻了Master Thread的工作。
5.InnoDB关键特性
InnoDB存储引擎的关键特性包括:
- 插入缓冲(insert buffer)
- 两次写(double write)
- 自适应哈希索引(adaptive hash index)
- 异步IO(Async IO)
- 刷新邻接页(flush neighbor page)
①插入缓冲
1)Insert Buffer
插入聚集索引(Primary key)一般是顺序的,不需要磁盘的随机读取,因此这类情况下的插入操作,速度是非常快的。(并不是所有的主键插入都是顺序的,如UUID这样的就不是)
insert buffer,是非聚集索引(辅助索引、UUID为主键等)的插入或更新操作,并不是每一次直接插入到索引页中,而是先判断非聚集索引页是否在缓冲池中,若在,直接插入;若不在,则先放入到一个 insert buffer对象中,再以一定的频率和情况进行insert buffer和辅助索引页子节点的merge(合并)操作,这时通常能将多个插入合并到一个操作中(因为在一个索引页中),这就大大提高了对于非聚集索引插入的性能。
insert buffer的使用需要同时满足以下两个条件:
- 索引是辅助索引(secondary index)
- 索引不是唯一(unique)的
修改 IBUF_POOL_SIZE_PER_MAX_SIZE可以对插入缓冲的大小进行控制,比如将值改为3(默认为2),则最大只能使用1/3的缓冲池内存。
2)Change Buffer
1.0.x版本开始引入,可将其视为Insert Buffer的升级。从这个版本开始,InnoDB存储引擎可以对DML操作——insert、delete、update都进行缓冲,他们分别是Insert Buffer、 Delete Buffer、Purge Buffer。
和之前Insert Buffer一样,Change Buffer适用的对象依然是非唯一的辅助索引。
对一条记录进行update操作可能分为两个过程:
- 将记录标记为已删除;
- 真正将记录删除。
Delete Buffer对应update操作的第一个过程,Purge Buffer对应update操作的第二个过程。
提供参数innodb_change_buffering,可选值:inserts、deletes、purges、changes、all、none。
changes表示启用inserts和deletes,all表示启用所有,none表示都不启用。默认为all。
1.2.x开始,可通过innodb_change_buffer_max_size来控制Change Buffer最大使用内存数量:
默认值为25,表示最多使用1/4的缓冲池内存空间,该参数最大有效值为50。
3)Insert Buffer的内部实现
MySQL 4.1之前的版本中每张表一颗Insert Buffer B+树。现在的版本中,全局只有一颗Insert Buffer B+树。
②两次写
如果Insert Buffer带给InnoDB的是性能上的提升,那么 doublewrite(两次写)带给InnoDB的是数据页的可靠性。
doublewrite由两部分组成:
- 内存中的doublewrite buffer,大小为2M。
- 物理磁盘上共享表空间中连续的128个页,即2个区(extent),大小同样为2M。
在对缓冲池的脏页进行刷新时,:通过memcpy函数将脏页先复制到内存中的doublewrite buffer,之后通过doublewrite buffer再分两次,每次1MB顺序地写入共享表空间的物理磁盘上,然后马上调用fsync函数,同步磁盘,避免缓冲写带来的问题。
在这个过程中,因为doublewrite 页是连续的,因此这个过程是顺序写的,开销并不是很大。
在完成doublewrite 页的写入后,再将doublewrite buffer中的页写入各个表空间文件中,此时的写入则是离散的。
③自适应哈希索引
B+ 树的查找次数取决于B+ 树的高度,在生产环境中,B+树的高度一般为34层,故需要34次查询。
InnoDB会监控对表上各索引页的查询,如果观察到建立哈希索引可以带来速度提升,则建立哈希索引,称之为自适应哈希索引(Adaptive Hash Index, AHI)。
AHI有一个要求,对这个页的连续访问模式必须是一样的。例如 where a=xx 和 where a=xx and b=xxx,如果两个访问交替查询,那么不会构造AHI。
AHI还有如下要求:
- 以该模式访问了100次
- 页通过该模式访问了N次,其中N=页中记录*1/16
- 只能用来搜索等值的查询,对于其他查找类型,如范围查找,是不能使用哈希索引的。
④异步IO
异步IO可以进行IO Merge操作,就是将多个IO合并为1个IO,这样可以提高IOPS的性能。例如用户需要访问页的(space, page_no)为:(8,6)、(8,7)、(8,8),每个页大小为16KB,同步IO需要进行3次IO操作,而AIO会判断到这三个页是连续的,因此AIO底层会发送一个IO请求,从(8,6)开始,读取48KB的页。
⑤刷新邻接页
工作原理:当刷新一个脏页时,InnoDB会检测该页所在区(extent)的所有页,如果是脏页,那么一起进行刷新。
这样做的好处是通过AIO可以将多个IO写入操作合并为一个IO操作,该机制在传统机械磁盘下有着显著的优势
可通过innodb_flush_neighbors来控制是否启用该特性。
6.启动、关闭与恢复
innodb_fast_shutdown影响着表的存储引擎为InnoDB的行为。该值可取值为0、1、2,默认值为1.
- 0 表示在MySQL数据库关闭时,InnoDB需要完成所有的full purge 和merge insert buffer,并且将所有的脏页刷新回磁盘。这需要一些时间,甚至需要几个小时来完成。如果在进行InnoDB升级时,必须将这个参数调为0,然后再关闭数据库。
- 1 表示不需要完成上述的full purge 和 merge insert buffer操作,但是缓冲池中的一些数据脏页还是会刷新回磁盘。
- 表示不完成 full purge 和 merge insert buffer操作,也不将缓冲池中的数据脏页刷新回磁盘,而是将日志都写入日志文件。这样不会有任何事务的丢失,但是下次MySQL数据库启动时,会进行恢复操作(recovery)。
innodb_force_recovery影响了整个InnoDB存储引擎恢复的状况。该参数值默认为0。
- 0 代表当发生需要恢复时,进行所有的恢复操作,当不能进行有效恢复时,如数据页发生了corruption,MySQL数据库可能发生宕机(crash),并把错误写入错误日志中去。
- 1 忽略检查到的corrupt页。
- 2 阻止Master Thread线程的运行,如Master Thread线程需要进行full purge操作,而这会导致crash。
- 3 不进行事务的回滚操作。
- 4 不进行插入缓冲的合并操作。
- 5 不查看撤销日志(undo log),InnoDB存储引擎会将未提交的事务视为已提交。
- 6 不进行前滚的操作。