数据结构与算法Day14----散列表（上）

一、散列表

1、概念：

也叫哈希表，是根据关键码值(Key value)而直接进行访问的数据结构。也就是说，它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做散列表。

2、散列函数：

key和value之间的关系叫做散列函数。

3、散列函数的要求：

1. 散列函数计算得到的散列值是一个非负整数；
2. 如果key1 = key2，那hash(key1) == hash(key2)；相同的key，经过散列函数得到的散列值也应该是相同的。
3. 如果key1 ≠ key2，那hash(key1) ≠ hash(key2)。要想找到一个不同的key对应的散列值都不一样的散列函数，几乎是不可能的，所以会造成散列冲突。而且因为数组的存储空间有限，也会加大散列冲突的概率。

4、散列冲突的解决办法：

1、开放寻址法（open addressing）：

(1)：核心思想：

如果出现了散列冲突，我们就重新探测一个空闲位置，将其插入。

(2)：探测方法：

<1>：线性探测（Linear Probing）：

a：线性探测的插入：

当往散列表中插入元素时，如果某个数据经过散列函数散列之后，存储位置已经被占用了，就从当前位置开始，依次往后查找，看是否有空闲位置，如果找到数组尾都未找到，那么再从头开始，直到找到为止。

线性探测的插入

b：线性探测的查找：

往散列表中查找元素时，通过散列函数求出要查找元素的键值对应的散列值，然后比较数组中下标为散列值的元素和要查找的元素。如果相等，则说明就是我们要找的元素；否则就顺序往后依次查找。如果遍历到数组中的空闲位置，还没有找到，就说明要查找的元素并没有在散列表中。

线性探测的查找

c：线性探测的删除：

往散列表中删除元素时，通过散列函数求出要查找元素的键值对应的散列值，然后比较数组中下标为散列值的元素和要查找的元素。如果相等，则说明就是我们要找的元素；否则就顺序往后依次查找。直到找到，将其删除后，将删除的元素，特殊标记为deleted。

线性探测的删除

<2>：二次探测（Quadratic probing）：

跟线性探测很像，线性探测每次探测的步长是1，那它探测的下标序列就是hash(key)+0， hash(key)+1， hash(key)+2……而二次探测探测的步长就变成了原来的“二次方”，也就是说，它探测的下标序列就是hash(key)+0， hash(key)+1^2， hash(key)+2^2……

<3>：双重散列（Double hashing）：

使用一组散列函数hash1(key)， hash2(key)， hash3(key)……先用第一个散列函数，如果计算得到的存储位置已经被占用，再用第二个散列函数，依次类推，直到找到空闲的存储位置。

(3)：优缺点：

<1>：优点：

散列表中的数据都存储在数组中，可以有效地利用CPU缓存加快查询速度。而且，这种方法实现的散列表，序列化起来比较简单。

<2>：缺点：

用开放寻址法解决冲突的散列表，删除数据的时候比较麻烦，需要特殊标记已经删除掉的数据。而且，在开放寻址法中，所有的数据都存储在一个数组中，比起链表法来说，冲突的代价更高。所以，使用开放寻址法解决冲突的散列表，装载因子的上限不能太大。这也导致这种方法比链表法更浪费内存空间。

2、装载因子（load factor）：

不管采用哪种探测方法，当散列表中空闲位置不多的时候，散列冲突的概率就会大大提高。为了尽可能保证散列表的操作效率，一般情况下，我们会尽可能保证散列表中有一定比例的空闲槽位。我们用装载因子来表示空位的多少。
装载因子的计算公式是：散列表的装载因子=填入表中的元素个数/散列表的长度
装载因子越大，说明空闲位置越少，冲突越多，散列表的性能会下降。