记一次mysql性能优化记录

1.背景

有个项目需求需要从一个数据量较大的表中,取出一部分数据,这个表的记录数量大概在3000万-1亿左右,从中需要取出1000万+的部分数据,数据库是MySQL,表的数据结构为:

CREATE TABLE `task_status` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `task_id` varchar(50) COLLATE utf8mb4_unicode_ci NOT NULL,
  `dom_id` char(24) COLLATE utf8mb4_unicode_ci NOT NULL,
  `task_type` varchar(50) COLLATE utf8mb4_unicode_ci NOT NULL,
  `task_name` text COLLATE utf8mb4_unicode_ci,
  `task_result` char(24) COLLATE utf8mb4_unicode_ci DEFAULT NULL,
  `task_state` char(24) COLLATE utf8mb4_unicode_ci DEFAULT NULL COMMENT '状态',
  `execution_type` int(2) NOT NULL DEFAULT '0',
  `temporal_workflow_id` varchar(128) COLLATE utf8mb4_unicode_ci DEFAULT NULL,
  `temporal_run_id` varchar(128) COLLATE utf8mb4_unicode_ci DEFAULT NULL,
  `user_id` varchar(50) COLLATE utf8mb4_unicode_ci DEFAULT NULL,
  `user_name` varchar(50) COLLATE utf8mb4_unicode_ci DEFAULT NULL,
  `obj_id` char(24) COLLATE utf8mb4_unicode_ci DEFAULT NULL,
  `obj_name` varchar(255) COLLATE utf8mb4_unicode_ci DEFAULT NULL,
  `content` mediumtext COLLATE utf8mb4_unicode_ci,
  `task_param` mediumtext COLLATE utf8mb4_unicode_ci,
  `task_status_history` mediumtext COLLATE utf8mb4_unicode_ci,
  `submit_time` datetime DEFAULT NULL,
  `running_time` datetime DEFAULT NULL,
  `finished_time` datetime DEFAULT NULL,
  `utime` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP,
  `is_del` tinyint(1) unsigned NOT NULL DEFAULT '0',
  PRIMARY KEY (`id`),
  UNIQUE KEY `task_id` (`task_id`),
  KEY `task_status_submit_time_index` (`submit_time`),
  KEY `dom_id` (`dom_id`),
  KEY `obj_id` (`obj_id`),
  KEY `obj_name` (`obj_name`),
  KEY `task_type` (`task_type`),
  KEY `task_result` (`task_result`),
  KEY `finished_time` (`finished_time`)
) ENGINE=InnoDB AUTO_INCREMENT=12429951 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;

查询数据的SQL:
select * from task_status where utime between #{startTime} and #{endTime};
因为数据量较大,不可能一次查询出来,所以需要进行分页,所以SQL就变成了分页查询:
select * from task_status where utime between #{startTime} and #{endTime} order by id limit #{offset},#{pageSize};

通过这样的方式上线后,当表的数据量较大时(千万级),每次分页查询的速度挺慢的,因为需要多次查询,总的消耗的时间不低,我们需要对SQL进行优化

2.优化方案

先分析下SQL为什么执行效率不高:
主要原因:
1.utime没有索引,所以每次查询基本都是全表扫描,效率很差。
2.分页查询当offset越来越大时,查询效率会越来越低,因为分页查询的本质是先查询出来offset+pageSize后,再剔除掉前面offset个,所以效率很低

对utime增加索引???
如果对utime增加索引,则语句变成:
select * from task_status where utime between #{startTime} and #{endTime} order by utime limit #{offset},#{pageSize};
这种方案能解决上面的原因1,但是原因2还是无法解决,offset越来越大时查询速度会越来越慢。而且还需要变更表结构,线上客户环境是私有化部署,需要运维进入每个客户的环境进行表结构升级,成本较高,而且索引占用存储,所以这个方案也被否定了。

分页优化一般是通过id来实现,例如:
select * from task_status where id in(select id from task_status where utime between #{startTime} and #{endTime} order by utime limit #{offset},#{pageSize});
利用了覆盖索引和主键索引,不需要回表查询大量的数据,但是这种方式前提是能对utime增加索引,但是实际情况是这个字段增加索引很困难,所以这种方案也不是最好的方案。

经过一段时间的思考,想到了一种方案:
方案详情:
步骤一:我们是根据utime字段做查询,先可以查询出来总数和满足条件的最大id和最小id值
select count() as num,max(id) as maxId,min(id) as minId from task_status where utime between #{startTime} and #{endTime}
步骤二:我们将minId和maxId整个区间的数据划分为若干个段,根据第一步得到的 num,maxId和minId,如果我们每次分页的数量是5万,那么需要分段的数量为:num/50000 as pageSize(注意取整,向上+1),在每个段里id的递增数量是:(maxId-minId+1)/pageSize as idIncrement,所以查询的语句变成
select * from task_status id between minId and minId+idIncrement and utime between #{startTime} and #{endTime};
select * from task_status id between minId+idIncrement and minId+2
idIncrement and utime between #{startTime} and #{endTime};
.....
不足之处:因为id分布式不均衡的,这样直接限制递增数量,可能会出现有的区间可能查询出来数据较多,有的较少,可能没有,所以对局部再做分页查询,sql就变成了:
select * from task_status id between minId and minId+idIncrement and utime between #{startTime} and #{endTime} order by id limit 50000;
如果返回的数据数量少于50000,就不需要再查询,直接到下一个id区间查询,否则需要继续进行查询,但是可以获取到这次查询的最后一个id值,下一个查询就变成了
select * from task_status id between #{上一次查询的最大值+1} and a+idIncrement and utime between #{startTime} and #{endTime} order by id limit 50000;

优化效果:
task_status 200w-300w数据之间

SELECT * FROM task_status
WHERE utime BETWEEN '2022-04-18 00:00:00' AND '2022-05-18 00:00:00' order by id limit 0,50000;
刚开始是1-2s,随着分页的进行

SELECT * FROM task_status_00014
WHERE utime BETWEEN '2022-04-18 00:00:00' AND '2022-05-18 00:00:00' order by id limit 500000,50000;
需要3s左右

SELECT * FROM task_status WHERE utime BETWEEN '2022-04-18 00:00:00' AND '2022-05-18 00:00:00' order by id limit 1500000,50000;
需要5s+

优化后:
SELECT * FROM task_status WHERE id between 1000000 and 1050000 and utime BETWEEN '2022-04-18 00:00:00' AND '2022-05-18 00:00:00' order by id limit 50000;
不管区间怎么变,时间维持在1-2s之间

数据量太小,用1000万数据进行测试

SELECT * FROM task_status where utime between '2018-05-21' and '2019-05-21' limit 3000000,10000;
10s+

SELECT * FROM task_status where utime between '2018-05-21' and '2019-05-21' and id between 500000 and 550000 order by id;
0.1s

性能还是得到了很大的提升,但是这种方案确实有点复杂,还需要分区间,每个区间里面去做分页,很绕人,所以后面又想到了更加简单更好的方案

最终方案:
不用分区间,先获取max(id) as maxId和min(id) as minId

如果每次分页查询50000条,则第一次查询语句
select * from task_status where id>=minId and utime between '2018-05-21' and '2019-05-21' order by id asc limit 50000

找到上一次查询最大的id as lastMaxId,作为下次的起始id,那么第二次查询语句变成
select * from task_status where id>=lastMaxId+1 and utime between '2018-05-21' and '2019-05-21' order by id asc limit 50000
......
以此类推,直到这次查询到的最大id值>=maxId值或者查询出来的数据数量为0结束。

实际数据测试结果:
SELECT * FROM task_status where utime between '2001-05-21' and '2023-05-21' and id > #{lastMaxId}+1 order by id asc limit 50000;
每次基本维持在0.5s,而且实现起来较为简单,也比较好理解,需要查询的数量比上个方案更少,所以这种方案目前来说是最优的。
注意:order by id必须要有,不然按默认顺序的话就会有问题,不过mysql好像默认也是按照id顺序,为了防止不可预料的问题,建议还是加这个

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,784评论 5 474
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,745评论 2 378
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,702评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,229评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,245评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,376评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,798评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,471评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,655评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,485评论 2 318
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,535评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,235评论 3 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,793评论 3 304
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,863评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,096评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,654评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,233评论 2 341

推荐阅读更多精彩内容