【原创】JOIN 详述(中)

JOIN 的执行流程
建表
create table test8 (id int(11) PRIMARY key,a int(11) not null, b int(11) not null,key a(`a`))

delimiter ;;
CREATE PROCEDURE idata()
BEGIN
    DECLARE i int;
    set i = 1;
    WHILE i < 1000 DO
        INSERT into test8 values(i,i,i);
        SET i = i + 1;
    END WHILE;
END;;
delimiter ;
CALL idata();

CREATE table test9 like test8;

INSERT into test9 (select * FROM test8 WHERE id <= 100)
Index Nested-Loop Join

对于如下 SQL 语句:

select * FROM test9 STRAIGHT_JOIN test8 on test9.a = test8.a;

NOTE:
STRAIGHT_JOIN 可以手动指定驱动表和被驱动表,而不要经过优化器的判断,有时候可以用来优化 JOIN 查询,但最好不要那么做,因为现在的优化器会做出合理的判断。上述 SQL 只是为了便于分析!

上述SQL的执行计划如下:


执行计划1.png

由于被驱动表 test8 的字段 a 上有索引,join 过程用上了该索引,所以上述 SQL 的执行流程如下:

  1. 从表 test9 取出一行 D
  2. 取出D行中的 a 的值到表 test8 中去查找
  3. 取出 test8 中满足条件的行,和 R 组成一行,作为结果集的一部分
  4. 重复执行 步骤 1 到步骤 2 ,直到取到表 test9 的最后一行

上述流程称之为 "Index Nested-Loop Join",简称 NIJ
在这个流程中,对表 test9 做全表扫描,需要扫描 100 行,对于每一行 D,根据 a 字段去表 test8 查找,由于走的是树的搜索过程,因此每次搜索都只扫描一行,也是总共扫描 100 行,所以整个流程一共扫描 200 行。

假设驱动表的行数是 N,被驱动表的行数 是 M,那整个过程的复杂度近似是 N + 2 * N * log2M,显然 N 的值对扫描行数更大些,所以应该用小表做驱动表

Simple Nested-Loop Join

对于如下 SQL 语句

select * FROM test9 STRAIGHT_JOIN test8 on test9.b = test8.b;

NOTE:
b 字段没有建立索引

如果继续使用 上述的流程,那么这个 SQL 得扫描 100 * 1000 = 10万 行数据,如果两个表的行数都比价大,那么这样速度会很慢,好在 MySQL 没有使用这个,而是使用了一个叫 "Block Nested-Loop Join"
的算法,简称 BNL。

Block Nested-Loop Join

被驱动表上没有索引,则执行的流程是:

  1. 把表 test9(驱动表) 的数据读入线程内存 join_buffer ,由于是 select * ,因此是把整个表 test9 放入内存中
    2.扫描表 test8(被驱动表) ,把 test8 中的每一行和 join_buffer 中的数据做对比,满足 join 条件的作为结果集的一部分返回。

其执行计划如下:


image.png

虽然也是扫描了 100 * 1000 = 10 万 行,但是这十万次判断是在内存中进行,速度上会快很多,性能也会更好。
在这种情况下,应该选择哪个表作为驱动表?
假设小表的行数是 N,大表的行数是 M,那么在这个算法中:
1.两个表都要做一次全表扫描,扫描行数是 M + N
2.在内存中判断次数是 M * N
因此不论谁做驱动表都是一样的

如果 join_buffer 一次放不下驱动表的数据,则需要驱动表的数据分段放进 join_buffer ,则流程是:
1.取驱动表的一部分数据放入 join_buffer,直至 join_buffer 放不了
2.扫描被驱动表的每一行数据,跟 join_buffer 中的数据做对比,满足
join 条件的数据作为结果集的一部分返回
3.清空 join_buffer
4.继续读取驱动表剩下的数据,重复步骤 1 到步骤 3,一直驱动表的数据被扫描完
若驱动表的行数是 N,需要分 K 段才能扫描完,被驱动表的行数是 M
则扫描的行数是 N + K * M (N 越大,K 越大) ==> N + λ * N * M( 0 < λ < 1 )
内存判断次数还是 N + M
由此可见在 M ,N 大小固定的情况下,N越小,其扫描行数越小。

综上所述
1.如果是 NLJ 算法,应该选择小表做驱动
2.如果是 BNL 算法

  • 如果 join_buffer 足够大,是一样的
  • 如果 join_buffer 不是足够大,应该选择小表做驱动表

所以不管如何,都应该选择小表作为驱动表

[备注] 参考了 极客时间 的 MySQL实战45讲。链接如下:
https://time.geekbang.org/column/article/79700

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容