Mysql

1.Mysql基本架构图


Mysql逻辑架构图

一.Innodb和MylSAM的区别

    1.Innodb 支持事务,MylSam 不支持事务

    2.Innodb支持外键,Mylsam不支持

    3.Innodb支持行锁

    4.Innodb删除数据表,是一行一行删除,Mylsam会重建

    5.Mylsam支持全文索引,Innodb不支持






二.索引

索引的三大优点:索引大大减少了服务器需要扫描的行数,索引可以帮助服务器避免排序和临时表,索引可以将随机IO变成顺序IO

    1.聚集索引

           定义:数据行的物理顺序和列(主键)的逻辑顺序相同,一个表中只能有一个聚集索引。叶子节点就是对应的数据节点。

         聚集索引就是按照每一张表的主键构造的一棵B+树,同时叶子节点中存放的即是整张表的行记录数据



       

2.非聚集索引(辅助索引)

            定义:索引中索引的逻辑顺序与磁盘上行的物理存储顺序不同,一个表中可以拥有多个非聚集索引

            非聚集索引,叶子节点并不包含行记录的全部数据,叶子节点除键值以外,每个叶子节点中的索引行还包含了一个书签。指向了主键索引的主键,然后再通过主键索引来找到一个完整的行记录


          非聚集索引的二次查询问题

        非聚集索引叶节点仍然是索引节点,只是有一个指针指向对应的数据块,此如果使用非聚集索引查询,而查询列中包含了其他该索引没有覆盖的列,那么他还要进行第二次的查询,查询节点上对应的数据行的数据

举个例子:


使用以下语句进行查询,不需要进行二次查询,直接就可以从非聚集索引的节点里面就可以获取到查询列的数据。

                    select id, username from t1 where username = '小明' 

                    select username from t1 where username = '小明'

但是使用以下语句进行查询,就需要二次的查询去获取原数据行的score:

                    select username, score from t1 where username = '小明'

- 通过cardinality关键字来决定,建索引的必要性,如果关键字越小,则需考虑是否有必要建立这个索引

参考资料:https://blog.csdn.net/weigeshikebi/article/details/80214965

3.联合索引

   1. 联合索引指的是对表上的多个列进行索引。

联合索引


2.能够使用联合索引的情况

①全匹配

select * from t where a=xxx and b=xxx

最左前缀匹配

对于单个的a列,也可以用到(a,b,c)联合索引

select * from t where a=xxx

select * from t where a=xxx and b=xxx (可以)

select * from t where a=xxx and b=xxx and c=xxx(可以)

select * from t where b=xxx and c=xxx (则不行)

select * from t where b=xxx(不行)我们可以看到,叶子节点上的b为1,2,1,4,1,2不是有序的

③不能使用联合索引

叶子节点上b的值为1,2,1,4,1,2,显然不是排序的。

select * from t where b=xxx

同理,如果建立(a,b,c)索引,则下面的查询都能用到索引。

select * from t where a=xxx and b=xxx and c=xxx

select * from t where a=xxx and b=xxx

select * from t where a=xxx

select * from t where b=xxx and c=xxx

3.联合索引可对第二个列进行排序处理,减少一次filesort

在联合索引(a,b)中,由于a相同的情况下b本来就是排序的,所以下面的查询能够用到(a,b)索引,且不需要额外再进行排序。

select * from t where a=xxx order by b

同理,如果建立(a,b,c)索引,下面的查询也能少一次fileSort。

select * from t where a=xxx and b=xxx order by c

select * from t where b=xxx order by c

select * from t where a=xxx order by b

但是对于

select * from t where a=xxx order by c

则不行,c还需要再进行一次排序

4.覆盖索引

如果一个索引包含(或覆盖)所有需要查询的字段的值,称为‘覆盖索引

表结构

150多万的数据,这么一个简单的语句:

慢查询日志里居然很多用了1秒的,Explain的结果是:

从Explain的结果可以看出,查询已经使用了索引,但为什么还这么慢?

分析:首先,该语句ORDER BY 使用了Using filesort文件排序,查询效率低;其次,查询字段不在索引上,没有使用覆盖索引,需要通过索引回表查询;也有数据分布的原因。

知道了原因,那么问题就好解决了。

解决方案:由于只需查询uid字段,添加一个联合索引便可以避免回表和文件排序,利用覆盖索引提升查询速度,同时利用索引完成排序。

覆盖索引:SQL只需要通过索引就可以返回查询所需要的数据,而不必通过二级索引查到主键之后再去查询数据。

我们再Explain看一次:

Extra信息已经有'Using Index',表示已经使用了覆盖索引。经过索引优化之后,线上的查询基本不超过0.001秒。

5.索引下推优化(ICP优化)-减少回表次数

而 MySQL 5.6 引入的索引下推优化(index condition pushdown), 可以在索引遍历过程中,对索引中包含的字段先做判断,直接过滤掉不满足条件的记录,减少回表次数

图 3 和图 4,是这两个过程的执行流程图。


图 3 无索引下推执行流程图


 4 索引下推执行流程


在图 3 和 4 这两个图里面,每一个虚线箭头表示回表一次。

图 3 中,在 (name,age) 索引里面我特意去掉了 age 的值,这个过程 InnoDB 并不会去看 age 的值,只是按顺序把“name 第一个字是’张’”的记录一条条取出来回表。因此,需要回表 4 次。

图 4 跟图 3 的区别是,InnoDB 在 (name,age) 索引内部就判断了 age 是否等于 10,对于不等于 10 的记录,直接判断并跳过。在我们的这个例子中,只需要对 ID4、ID5 这两条记录回表取数据判断,就只需要回表 2 次。

6.MRR优化--将随机IO转变为顺序IO提高效率

    1.将查询得到的辅助索引键值放入一个缓存当中,这时缓存中的数据是根据辅助索引键值排序的

    2.将缓存中的键值,根据RowID(主键)进行排序

    3.根据RowID的排序顺序来访问实际的数据文件。

没有MRR之前:

在没有MRR之前,或者没有开启MRR特性时,MySQL 针对基于辅助索引的查询策略是这样的:

selectnon_key_colfromtb where key_col=x;

MySQL 执行查询的伪代码

第一步 先根据where条件中的辅助索引获取辅助索引与主键的集合,结果集为rest。

select key_col,pk_col from tb where key_col=x order by key_col

第二步 通过第一步获取的主键来获取对应的值。

      foreach pk_column valueinrest do:

select non_key_column from tb where pk_column=val

由于MySQL存储数据的方式: 辅助索引的存储顺序并非与主键的顺序一致,从图中可以看出,根据辅助索引获取的主键来访问表中的数据会导致随机的IO . 不同主键不在同一个page 里面时必然导致多次IO 和随机读。

在使用MRR优化特性的情况下,

MySQL 针对基于辅助索引的查询策略是这样的:

第一步 先根据where条件中的辅助索引获取辅助索引与主键的集合rest

select key_col,pk_col from tb where key_col=x order by key_col;

第二步 将结果集rest放在buffer里面(read_rnd_buffer_size 大小直到buffer满了),然后对结果集rest按照pk_col排序,得到结果集是rest_sort

第三步 利用已经排序过的结果集,访问表中的数据,此时是顺序IO.

select non_key_col fromtb where pk_colin(rest_sort)

从图示所看,MySQL 将根据辅助索引获取的结果集根据主键进行排序,将乱序化为有序,可以用主键顺序访问基表,将随机读转化为顺序读,多页数据记录可一次性读入或根据此次的主键范围分次读入,以减少IO操作,提高查询效率。

7.普通索引和唯一索引

MySQL中普通索引和唯一索引的区别详解

一、查询和更新上的区别

这两类索引在查询能力上是没差别的,主要考虑的是对更新性能的影响。建议尽量选择普通索引。

查询操作:

        ■ 普通索引

        查找到第一个满足条件的记录后,继续向后遍历,直到第一个不满足条件的记录。

        ■ 唯一索引

        由于索引定义了唯一性,查找到第一个满足条件的记录后,直接停止继续检索。

        普通索引会多检索一次,几乎没有影响。因为 InnoDB 的数据是按照数据页为单位进行读写的,需要读取数据时,并不是直接从磁盘读取记录,而是先把数据页读到内存,再去数据页中检索。

        一个数据页默认 16 KB,对于整型字段,一个数据页可以放近千个 key,除非要读取的数据在数据页的最后一条记录,就需要再读一个数据页,这种情况很少,对CPU的消耗基本可以忽略了。

        因此说,在查询数据方面,普通索引和唯一索引没差别。

更新操作:

        更新操作并不是直接对磁盘中的数据进行更新,是先把数据页从磁盘读入内存,再更新数据页。

        ■ 普通索引

        将数据页从磁盘读入内存,更新数据页。

        ■ 唯一索引

        将数据页从磁盘读入内存,判断是否唯一,再更新数据页。

        由于 MySQL 中有个 change buffer 的机制,会导致普通索引和唯一索引在更新上有一定的区别。

        change buffer的作用是为了降低IO 操作,避免系统负载过高。change buffer将数据写入数据页的过程,叫做merge。

        如果需要更新的数据页在内存中时,会直接更新数据页;如果数据不在内存中,会先将更新操作记入change buffer,当下一次读取数据页时,顺带merge到数据页中,change buffer也有定期merge策略。数据库正常关闭的过程中,也会触发merge。

        对于唯一索引,更新前需要判断数据是否唯一(不能和表中数据重复),如果数据页在内存中,就可以直接判断并且更新,如果不在内存中,就需要去磁盘中读出来,判断一下是否唯一,是的话就更新。change buffer是用不到的。即使数据页不在内存中,还是要读出来。

        change buffer 用的是 buffer pool 里的内存,因此不能无限增大。change buffer 的大小,可以通过参数 innodb_change_buffer_max_size 来动态设置。这个参数设置为 50 的时候,表示 change buffer 的大小最多只能占用 buffer pool 的 50%。

结论:唯一索引用不了change buffer,只有普通索引可以用。

八.如何给字符串加索引呢?

针对字符串的索引,一般会采用的是前缀索引,比如举个例子,有邮箱号列如QQ邮箱 975289275@qq.com为了,那邮箱号重复的地方比如@qq.com我们就可以忽略,只对前面的@qq.com得前面项加前缀索引,那么如何决定前缀索引的长度呢?可以通过以下命令计算出这个列有多少不同的值,然后取区分度最大的长度加索引。

        select count(dinstinct left(email,length)) as l from table

其中length 可以是1,2,3,4,5,6......

一般遵循索引选择性原则,索引选择性原则指的是 不重复的索引值 和 据表记录总数的比值,比值越高,性能越好

前缀索引,遵循完整列的选择性 count(distinc left(emial,length))/count(*) as from table 这个比值越高,则性能越好

2.刚刚看到一个很不错的方法,使用伪hahs索引,就是将该字符串维护一个用hash函数处理的列,然后在该hash列上加索引即可,但是缺陷是要维护hash值


8.Hash索引的缺点

1、不能避免读取行

哈希索引只包含哈希值和行指针,而不存储字段值,所以不能使用索引中的值来避免读取行。不过,访问内存中的行的速度很快,所以大部分情况下这一点对性能的影响并不明显。

2、无法用于排序

哈希索引数据并不是按照索引值顺序存储的,所以也就无法用于排序。

3、无法使用部分索引列匹配查找

哈希索引也不支持部分索引列匹配查找,因为哈希索引始终是使用索引列的全部内容来计算哈希值的。例如,在数据列(A,B)上建立哈希索引,如果查询只有数据列A,则无法使用该索引。

4、只支持等值查找

哈希索引只支持等值比较查询,包括=、IN()、<=>(注意<>和<=>是不同的操作)。也不支持任何范围查询,例如WHERE price>100。

5、存在Hash冲突

访问哈希索引的数据非常快,除非有很多哈希冲突(不同的索引列值却有相同的哈希值)。当出现哈希冲突的时候,存储引擎必须遍历链表中所有的行指针,逐行进行比较,直到找到所有符合条件的行。

同时,当哈希冲突很多的时候,一些索引维护操作的代价也会很高。例如,如果在某个选择性很低(哈希冲突很多)的列上建立哈希索引,那么当从表中删除一行时,存储引擎需要遍历对应哈希值的链表中的每一行,找到并删除对应行的引用,冲突越多,代价越大。

9.B树的缺点

1.每个节点中既要存索引信息,又要存其对应的数据,如果数据很大,那么当树的体量很大时,每次读到内存中的树的信息就会不太够。

2.B树遍历整个树的过程和二叉树本质上是一样的,B树相对二叉树虽然提高了磁盘IO性能,但并没有解决遍历元素效率低下的问题。

3.范围查询的效率太低,没有B+树的高

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,924评论 5 474
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,781评论 2 378
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,813评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,264评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,273评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,383评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,800评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,482评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,673评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,497评论 2 318
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,545评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,240评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,802评论 3 304
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,866评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,101评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,673评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,245评论 2 341