索引的概念
索引,可以理解为一种特殊的目录。就好比我们看书或者查字典,只需要查目录,就能迅速定位到需要的内容,这样远比从头翻到尾要快。索引的原理与之类似。
索引的作用
1.索引可以提高数据库查询和应用程序的性能;
2.索引可以减少为返回查询结果集而必须读取的数据量;
3.索引还可以强制表中的行具有唯一性,从而确保表数据的数据完整性
索引的组成
索引包含从表或视图中一个或多个列生成的键,以及映射到指定数据的存储位置的指针。
分为两类:
聚集索引和非聚集索引。
索引的物理结构--B树
今天我来讨论的是我们的查询语句,什么时候会走索引。用到的数据库有PostgreSQL和MySQL。都是主流的开源数据库。目前Pg大有超越MySQL的趋势。
在我的实验中,开发环境是 Java8+eclipse+PostgreSQL/MySQL+Windows7.
我们来新建一个表,并测试索引的作用。
在还没有建立索引的时候,我们来做一个查询:
未建索引,检索到40835条数据,花时间3.2秒
对表中的age字段建立索引后,查询得:
比对—真实情况
发现,其实当你建立索引后查询,该语句并未走索引,也就是说你的索引没用生效。在postgresql数据库中,你建立了单个索引,如果用between,是用不到索引的。不能单凭一两次的模拟效果,看到查询速度快了就以为是索引的作用。
那么,为什么我们看到第二次确实比第一次时间少了很多呢?原因我想应该是PostgreSQL对其作了优化。因为两次的SQL是一模一样,两次查询时间间隔很短。当第一次未建立索引查询后,有部分数据被缓存在内存中,当你第二次建立了索引查询,发现时间虽然短了,但确不是因为索引,而是因为部分数据驻留在内存,这样查询出来肯定比第一次查询完全IO要快。这个操作系统的cache命中率是一个道理。
再来看一个例子
未建立索引,查询语句如下:
只建立了一个id索引的。
建立了一个age索引,走了age的索引。
建立了一个age+id索引,只走了age的索引。
总结
对于这样的查询语句:
Select *from tb_company where age=$age order by id desc limit 10000;
对age建索引=对age和id建索引,即A+B=A
但是A+B不能替代B(来自于网络)
有没有走索引,也不能凭一两次的数据观察所得,而是要通过专门的分析工具分析。
对于存在like关键字的情况探讨
(1)当%放在后面的时候
(2)前后都用%匹配‘
(3)只在前面%匹配
看实际的性能分析
对于只在后面加%的查询,PostgreSQL数据库是走了索引的。
对于前后都加了%,PostgreSQL数据库也是走了索引。
结论
对于PostgreSQL数据库,其对各个查询语句,只要建立了索引,都走了索引,那我们接下来看看MySQL的情况。
MySQL的情况
address索引,前面加%,全表扫描
先来简要说一下这里的各个字段代表的意思:
select_type代表该SQL是一条简单的SQL,没有join,也没有union。
table代表你查询的是哪个表。
type为all表示作了全表扫描。
rows代表影响的行数。
possible_keys** 提示使用哪个索引会在该表中找到行,不太重要
keys MYSQL使用的索引,简单且重要
key_len MYSQL使用的索引长度
ref ref列显示使用哪个列或常数与key一起从表中选择行。
address索引,后面加%,走了索引.
address索引,前后加%,全表扫描。
对于like是否走索引的总结
对于like关键字,通过以上实验和搜集的资料,得出如下结论:
这就是postgresql和mysql的区别,mysql有如下情况:
1 where address like ‘新疆维吾尔%’ 走了索引
2 where address like ‘%疆维吾尔%’ 并没有走索引
3.where address like '%疆维吾尔自治区',没有走索引
但是postgresql对此做了优化,以上两种情况都走了索引。
今天讲的索引,可能是很简单的内容,对于高手来说,这应该是很基础很基础的东西。索引的内容博大精深,希望与大家一起探讨,共同进步!!!