平时我们在使用数据库时,看到的通常是一个整体。比如你有一个最简单的表,表里只有一个ID字段,在执行下面的查询语句时:
mysql > select * from T where ID = 1;
我们只知道输入是一条SQL语句,输出是MySQL返回的结果集,却不知道这条语句在MySQL内部的执行过程。本篇文章主要是拆解MySQL,告诉你MySQL内部都有哪些零件,分别有何作用,以此让你加深对MySQL的理解。
MySQL基本架构
下图是一张MySQL的基本架构示意图大体来讲,MySQL由server层和存储引擎层两部分组成。
Server 层包括连接器、查询缓存、分析器、优化器、执行器等,涵盖 MySQL 的大多数核心服务功能,以及所有的内置函数(如日期、时间、数学和加密函数等),所有跨存储引擎的功能都在这一层实现,比如存储过程、触发器、视图等。
而存储引擎层负责数据的存储和提取。其架构模式是插件式的,支持 InnoDB、MyISAM、Memory 等多个存储引擎。
接下来,我以开头那条SQL语句,走一遍整个执行流程,看看每个组件的作用。
连接器
第一步,你会先连接到这个数据库上,这时候接待你的就是连接器。连接器负责跟客户端建立连接、获取权限、维持和管理连接。连接命令一般是这么写的:
mysql -h$ip -P$port -u$user -p
连接命令中的 mysql 是客户端工具,用来跟服务端建立连接。在完成经典的 TCP 握手后,连接器就要开始认证你的身份,这个时候用的就是你输入的用户名和密码。
- 如果用户名或密码不对,你就会收到一个"Access denied for user"的错误,然后客户端程序结束执行。
- 如果用户名密码认证通过,连接器会到权限表里面查出你拥有的权限。之后,这个连接里面的权限判断逻辑,都将依赖于此时读到的权限。
这就意味着,一个用户成功建立连接后,即使你用管理员账号对这个用户的权限做了修改,也不会影响已经存在连接的权限。修改完成后,只有重新建立连接才会使用新的权限设置。
客户端如果太长时间没动静,连接器就会自动将它断开。这个时间是由参数 wait_timeout 控制的,默认值是 8 小时。你可以通过下面这条sql语句来查看:
mysql > show VARIABLES where variable_name='wait_timeout';
如果在连接被断开之后,客户端再次发送请求的话,就会收到一个错误提醒: Lost connection to MySQL server during query。这时候如果你要继续,就需要重连,然后再执行请求了。
查询缓存
连接建立完成后,你就可以执行 select 语句了。执行逻辑就会来到第二步:查询缓存。
MySQL 拿到一个查询请求后,会先到查询缓存看看,之前是不是执行过这条语句。之前执行过的语句及其结果可能会以 key-value 对的形式,被直接缓存在内存中。key 是查询的语句,value 是查询的结果。如果你的查询能够直接在这个缓存中找到 key,那么这个 value 就会被直接返回给客户端。
如果语句不在查询缓存中,就会继续后面的执行阶段。执行完成后,执行结果会被存入查询缓存中。你可以看到,如果查询命中缓存,MySQL 不需要执行后面的复杂操作,就可以直接返回结果,这个效率会很高。
但是大多数情况下,建议不要使用缓存,因为查询缓存往往弊大于利。
MySQL为了保证查询结果的准确性,只要一个表的任何数据发生更新(包括新增、修改、删除),这个表上所有的查询缓存都会被清空。因此对于更新数据频繁的数据库来说,查询缓存的命中率会非常低。
分析器
如果没有命中查询缓存,就要开始真正执行语句了,此时分析器开始介入。分析器的作用是,告诉MySQL你要做什么,因此它负责对 SQL 语句做解析。
分析器先会做“词法分析”。你输入的是由多个字符串和空格组成的一条 SQL 语句,MySQL 需要识别出里面的字符串分别是什么,代表什么。
MySQL 从你输入的"select"这个关键字识别出来,这是一个查询语句。它也要把字符串“T”识别成“表名 T”,把字符串“ID”识别成“列 ID”。
做完了这些识别以后,就要做“语法分析”。根据词法分析的结果,语法分析器会根据语法规则,判断你输入的这个 SQL 语句是否满足 MySQL 语法。
如果你的语句不对,就会收到“You have an error in your SQL syntax”的错误提醒,比如下面这个语句 select 少打了开头的字母“s”。
mysql> elect * from T where ID = 1;
ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'elect * from T where ID = 1' at line 1
一般语法错误会提示第一个出现错误的位置,所以你要关注的是紧接“use near”的内容。
加餐内容:
补充一个我的疑问,关于上文提到的:
如果你的语句不对,就会收到“You have an error in your SQL syntax”的错误提醒,比如下面这个语句 select 少打了开头的字母“s”。
问题:为什么词法分析没发现elect不对,而在语法分析里抛出这个错误?
网上一搜,发现很多人和我有同样的问题,遗憾的是都没有答案。于是我查了一下MySQL的词法分析的相关内容,以下三段资料感觉比较有用:
词法分析阶段是编译过程的第一个阶段,是编译的基础。这个阶段的任务是从左到右一个字符一个字符地读入源程序,即对构成源程序的字符流进行扫描然后根据构词规则识别单词(也称单词符号或符号)。
词法分析是编译程序的第一个阶段且是必要阶段;词法分析的核心任务是扫描、识别单词且对识别出的单词给出定性、定长的处理。词法分析器一般以函数的形式存在,供语法分析器调用。
在sql/lex.h中定义了MySQL关键字和函数关键字,用两个数组存储。
关键字 static SYMBOL symbols[]
函数 static SYMBOL sql_functions[]简单来讲,就是词法分析只负责把SQL语句中的关键字提取出来,但是不负责检查语句的合法性。SQL语句合法性校验由语法分析器完成,而语法分析器会调用词法分析器。举个栗子,词法分析能识别select,from,where等词的含义,但它们之间的顺序要求如何,是否必须存在于SQL语句中,则由语法分析完成。
优化器
经过了分析器,MySQL 就知道你要做什么了。在开始执行之前,还要先经过优化器的处理。
优化器的作用是在表里面有多个索引的时候,决定使用哪个索引;或者在一个语句有多表关联(join)的时候,决定各个表的连接顺序。比如你有一张表T,分别在c1列和c2列都建立了索引,执行下面这样的语句:
mysql > select * from T where c1 = 0 and c2 = 0;
此时既可以使用c1列的索引,也可以使用c2列的索引,这两种执行方法的逻辑结果是一样的,但是执行的效率会有不同。优化器的作用就是决定使用哪个索引作为最后的执行方案。
关于优化器是如何选择索引的,有没有可能选错,本文暂不细讲。
执行器
MySQL 通过分析器知道了你要做什么,通过优化器知道了该怎么做,于是就进入了执行器阶段,开始执行语句。
开始执行的时候,要先判断一下你对这个表 T 有没有执行查询的权限,如果没有,就会返回没有权限的错误,如下所示:
mysql> select * from T where ID=10;
ERROR 1142 (42000): SELECT command denied to user 'test'@'localhost' for table 'T'
如果有权限,就打开表继续执行。打开表的时候,执行器就会根据表的引擎定义,去使用这个引擎提供的接口。
比如我们这个例子中的表 T 中,ID 字段没有索引,那么执行器的执行流程是这样的:
- 调用存储引擎接口取这个表的第一行,判断 ID 值是不是 10,如果不是则跳过,如果是则将这行存在结果集中;
- 调用存储引擎接口取“下一行”,重复相同的判断逻辑,直到取到这个表的最后一行。
- 执行器将上述遍历过程中所有满足条件的行组成的记录集作为结果集返回给客户端。
至此,这个语句就执行完成了。
小结
本文通过分析一条SQL语句的执行过程,介绍了MySQL内部各个组件的作用。
- 连接器:负责和客户端建立连接,管理连接,并验证用户/密码合法性。
- 分析器:负责对SQL语句做词法、语法分析。
- 优化器:负责选择最优索引。
- 执行器:负责操作存储引擎,并返回执行结果。
希望你对一个 SQL 语句完整执行流程的各个阶段有一个初步的印象。