算法及数据结构之散列表

散列表是支持 INSERT 、DELETE 和 SEARCH 的字典操作，其是对普通数组概念的推广，因为可以对数组元素进行直接寻址，故可在 O(1) 时间内访问数组的任意元素。

当实际存储的关键字数比可能的关键字总数较小时，这时采用散列表比直接的数组寻址更为有效，因为散列表通常采用的数组尺寸与索要存储的关键字数是成比例的。在散列表中，根据关键字计算出数组下标。

直接寻址表

当关键字的全域 U 比较小并且任意两个关键字都不相同时，其中每个关键字元素取自全域 U={0,1,...,m-1}，此处 m 是一个不大的数，我们用一个数组（寻址表）T[0...m-1]，其中每个位置对应全域 U 中的一个关键字。在这个表中进行字典操作的执行是很快的，只需 O(1) 的时间。

直接寻址技术一个明显的问题是，如果域U很大，在一台典型计算机的可用内存容量限制下，为其设计一个对应的直接寻址表T是不太现实的。

散列表

当实际存储在字典中的关键字集合 K 比所有可能的关键字域U小得多时，我们使用散列表。

在直接寻址方式下，具有关键字 k 的元素被存放到槽 k 中。在散列方式下，该元素处于 h(k) 中，也就是利用散列函数 h，根据关键字 k 计算出槽的位置，函数 h 将关键字映射到散列表 T[0...m-1] 的槽位上。

h:U→{0...m-1}

采用散列函数的目的就在于缩小需要处理的小标范围,即要处理的值从 |U| 降到了 m，从而降低了空间开销。

这样做存在一个问题，就是两个关键字很可能映射到同一个槽上，我们将这种情形成为发生了碰撞。

我们可以通过如下两种方式解决碰撞：

1）链表法

在链表法中，把散列到同一个槽中的所有元素都放在一个链表中。如槽j中有一个指针，它指向由所有散列到j的元素构成的链表的投，如果不存在这样的元素，则 j 中为 NIL。

用链表法散列的最坏情况是所有的关键字 n 都散列到同一个槽中，从而产生出一个长度为 n 的链表，这时最坏情况下查找的时间为 O(n)。散列方法的平均态依赖于所选取的散列函数 h 在一般情况下，将所有关键字分不在 m 个槽位上的均匀程度。假定任何元素散列到 m 个槽中的每一个的可能性相同，且与其他元素已被散列到什么位置上是独立无关的，这个假定称为简单一致散列。

一个好的散列函数应或近似地满足简单一致散列的假设。

将关键字解释为自然数：多数散列函数都假定关键字域为自然数集 N={0,1,2,...}，如果给定的关键字不为自然数，则必须有一种方法来将他们解释为自然数。

a.除法散列法

通过取 k 除以 m 的余数，将关键字 k 映射到 m 个槽的某一个中去，即散列函数：

h(k)=k mod m

对于 m 的选择常常为与2的整数幂不太接近的质数。

b.乘法散列法

构造散列函数的乘法方法包含两个步骤，首先用关键字k乘上常数 A(0

h(k)=floor(m(kA mod 1))

其中 kA mod 1 为 kA 的小数部分，对于 A 的选择一般为：A 约等于(√5-1)/2，而 m 一般选择为2的某个幂次。

c.全域散列

任何一个特定的散列函数都有可能出现最坏的情况，使得平均检索时间为O(n)，唯一有效的改进方法是随机地选择散列函数，使之独立于要存储的关键字，这种方法成为全域散列。

全域散列的基本思想是在执行开始时，从一族仔细设计的函数中，随机选择一个作为散列函数，随机化保住了没有哪一种输入会始终导致最坏情况形态，同时，随机化使得即使对同一个输入，算法在每一次执行的形态也都不一样，这样就可以确保对于任何输入，算法都具有较好的平均情况形态。

2）开放寻址法

在开放寻址法中，所有的元素都存放在散列表理，亦即每个表项或包含动态集合的一个元素或为NIL。当查找一个元素时，要检查所有的表项，直到找到所需的元素或发现元素不在表中。开放寻址法中的装在因子不能超过1。

在开放寻址法中，当插入一个元素时，可以连续检查散列表的各项，直到找到一个空槽来放置待插入的关键字为止。检查的顺序不一定为0,1,2...，而是要依赖待插入的关键字，为了确定要探查哪些槽，我们将散列函数加以扩充，使之包含探查号（从0开始）以作为其第二个输入参数，如下面伪代码：

查找关键字 k 的算法的探查序列与将 k 插入时的插入算法一样，当查找到关键字或查找过程中碰到一个空槽时，查找算法就停止。

在开放寻址法中，当我们从槽 i 中删除关键字时，不能仅将 NIL 置于其中来标志它为空，如果这样的话，就会有个问题：在插入某关键字 k 的探查过程中，发现i被占用了，则 k 就被插入到后面的位置上，在将槽i中的关键字删除后，就无法检索关键字 k 了。

有一个办法就是在槽 i 中置一个特定的值 DELETED，而不是 NIL。这样 HASH-INSERT 做相应调整，使得 DELETED 标志的槽位仍可放入新的元素。

有三种技术常用来计算开放寻址法中的探查序列：线性探查、二次探查以及双重探查。

a.线性探查

首先给定一个普通的散列函数 h1(k)，则线性探查的散列函数为：

h(k,i)=(h1(k)+i) mod m,i=0,1,...,m-1

线性探查容易实现，但存在一个问题称作一次群集，随着时间的推移，连续被占用的槽不断增加，平均查找时间也随着不断增加。群集现象很容易出现，因为一个空槽前有i个满的槽时，该空槽为下一个将被占用槽的概率为 (i+1)/m。

b.二次探查

二次探查采用如下形式的散列函数：

h(k,i)=(h1(k)+c1*i+c2*i2) mod m

其中h1是一个普通散列函数，c1、c2 为常数，i=0,1,...,m-1。如果两个关键字的初始探查位置相同，那么它们的探查序列也是相同的，这一性质可导致一种程度较轻的群集现象，称为二次群集。

c.双重散列

双重散列所产生的排列具有随机选择的排列的许多特性，它采用如下形式的散列函数：

h(k,i)=(h1(k)+ih2(k)) mod m

其中 h1 和 h2 为普通散列函数，初始探查位置为 T[h1(k)]，后续探查位置在此基础上加上偏移量 h2(k)，这里的探查序列以两种方式依赖于关键字k，因为初始探查位置、偏移量都可能发生变化。

d.完全散列

当关键字集合是静态的时（指各关键字存入表中后，关键字集合就不再变化了）。如果某一种散列技术在进行查找时，其最坏情况内存访问次数为 O(1) 的话，则称其为完全散列。

设计一种完全散列：我们利用一种两级的散列方案，每一级都采用全域散列。

第一级与带链接的散列基本上是一样的：利用从某一全域散列函数族中仔细选出一个散列函数 h，将 n 个关键字映射到 m 个槽中。

对于第二级，我们不是对散列到槽j中的所有关键字建立一个链表，而是采用了一个较小的二次散列表 S，与其相关的散列函数 h1，可以确保在第二级上不出现碰撞。

本文作者：陈文龙（点融黑帮），现就职于点融网成都架构组担任研发工程师，平时喜欢听歌及户外运动。

最后编辑于：2017.12.06 02:30:13

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,529评论 5赞 475
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,015评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,409评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,385评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,387评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,466评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,880评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,528评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,727评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,528评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,602评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,302评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,873评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,890评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,132评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,777评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,310评论 2赞 342