并查集：集合合并与元素查找

博主按：因为教程所示图片使用的是 github 仓库图片，网速过慢的朋友请移步《并查集：集合合并与元素查找》原文地址。更欢迎来我的小站看更多原创内容：godbmw.com，进行“姿势”交流 ♪(^∇*)

1. 什么时候需要并查集？

在一些有 N 个元素的集合应用问题中，我们通常是在开始时让每个元素构成一个单元素的集合，然后按一定顺序将属于同一组的元素所在的集合合并，其间要反复查找一个元素在哪个集合中。

这个过程就涉及到：“合并”和“查找”这两个操作。

利用并查集，可以实现用数组存储数据，并且查找操作和合并操作的时间复杂度近乎 $O(1)$ 。

2. 如何实现并查集？

2.1 实现查找操作

并查集是一种树形数据结构。在这些数据中，每个集合是一棵树，所有的集合在一起就形成了“森林”。

当然，之前说过要节省空间，借助数组就可以实现。为了方便说明，这里数组的索引值就是数据本身，而索引 i 对应的数组的值arr[i]就是i的根节点。

如下图所示。3、4、9 这三个元素都以 8 位根节点。此时判断两个元素是否属于同一集合，只需要递归找到元素的根节点，比较根节点是否相同即可。

image

2.2 实现合并操作

这里的“合并”是指：将两个元素所在的集合合并为一个集合。

这一步操作实现逻辑较复杂，假设有两个元素 p 和 q 需要合并到一个集合，思路如下：

查找 p 和 q 的根节点，如果相同，两个元素已经是同一集合，跳出程序。如果不相同，往下执行。
将其中一个根节点的重新指向另一个跟节点，完成集合合并操作。

3. 算法分析和优化

前面已经说了，“并查集”是一种树形数据结构。而我们的查找和合并操作其实都是建立在从叶节点向上递归查找根节点的操作上。

因此，“并查集”的时间复杂度和树的深度有关，下面的优化操作也是为了让树的深度尽可能少，甚至变成 1 或者 2 层。

3.1 合并优化

如2.2所陈述，这步操作： “将其中一个根节点的重新指向另一个跟节点，完成集合合并操作” ，其实可能会造成树的高度增加。例如下图两棵树：

image

如果是右边那棵树的根节点指向了左边树的根节点，那么，新形成的树的高度就是 4。然而，左边那棵树的根节点如果指向右边那棵树的跟节点，树的高度就是 3。如此一来，形成的树的高度更低。

image

优化的方法就是：在“合并操作”的更改根节点指向的这步中，检测两棵树的高度，将高度较低的那颗树指向高度较高的树的根节点。所以，在初始化的时候，需要多一个数组rank[]，用来记录以 i 为根节点的树的高度。

3.2 “路径压缩”

大名鼎鼎的路径压缩，就是在“查找”的过程中，将树的高度压缩成 2 层。如果对元素p调用了一次查找操作，那么以p为叶子节点的往上一直到根节点的所有节点，都会被压缩。

如下图所示，在执行find(4)操作后，整棵树的样子就变成了图右边的样子。

image

代码的实现，需要借助递归，请直接看find()方法。

4. 代码实现

关于并查集的数据结构封装在了头文件union_find.h中：

// union_find.h
// Created by godbmw.com on 2018/10/9.
//

#ifndef UNIONFIND_UNION_FIND_H
#define UNIONFIND_UNION_FIND_H

#include <iostream>
#include <cassert>

using namespace std;

class UnionFind {
private:
    int count;
//    parent[i]：元素i父节点的索引值
    int *parent;
//     rank[i]：以i为根的集合所表示的树的层数
    int *rank;
public:
    UnionFind(int count) {
        this->count = count;
        parent = new int[count];
        rank = new int[count];
//        每个节点都是独立的，所以父节点索引就是自己
//        每个节点的树的高度都是1
        for(int i = 0; i < count; i++) {
            parent[i] = i;
            rank[i] = 1;
        }
    }

    ~UnionFind() {
        delete[] parent;
        delete[] rank;
    }

//    查找索引为p的元素的根节点的索引
    int find(int p) {
//        路径压缩：将层数为n( n>1 )的树压缩为层数为1的树
        if( p != this->parent[p]) {
            this->parent[p] = this->find( this->parent[p] );
        }
        return parent[p];
    }

//    查看索引分别为p和q的元素是否属于同一集合
    bool is_connected(int p, int q) {
        return this->find(p) == this->find(q);
    }

//    合并索引分别p和q的元素到一个集合
    void union_elements(int p, int q) {
        int p_root = this->find(p), q_root = this->find(q);

//        根节点索引值相同：已经属于同一集合
        if(p_root == q_root) return ;

        if( this->rank[p_root] < this->rank[q_root] ) {
//            合并后，q_root 的树的深度并没有改变
            this->parent[p_root] = q_root;
        } else if ( this->rank[q_root] < this->rank[p_root] ) {
//            合并后，p_root 的树的深度并没有改变
            this->parent[q_root] = p_root;
        } else {
//            合并后，q_root 的深度加 1
            this->parent[p_root] = q_root;
            this->rank[q_root] += 1;
        }
    }
};

#endif //UNIONFIND_UNION_FIND_H

5. 代码测试

直接上了 1 亿的数据量，并且执行了 1 一次合并操作和 1 亿次检查是否属于同一集合的操作。在我的电脑上耗时基本是 8s。有图有真相：

image

测试代码main.cpp如下：

// main.cpp
// created by godbmw.com

#include <iostream>
#include <ctime>
#include "union_find.h"

#define N 100000000

using namespace std;

void calc_run_time() {
    srand(time(NULL));
    register int a, b;
    UnionFind uf = UnionFind(N);

    time_t start_time = clock();

    for(int i = 0; i < N; i++) {
        a = rand() % N;
        b = rand() % N;
        uf.union_elements(a, b);
    }

    for(int i = 0; i < N; i++) {
        a = rand() % N;
        b = rand() % N;
        uf.is_connected(a, b);
    }

    time_t end_time = clock();

    cout << double(end_time - start_time) / CLOCKS_PER_SEC<<" s"<<endl;
}

int main() {
    calc_run_time();

    return 0;
}

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342

并查集：集合合并与元素查找

1. 什么时候需要并查集？

2. 如何实现并查集？

2.1 实现查找操作

2.2 实现合并操作

3. 算法分析和优化

3.1 合并优化

3.2 “路径压缩”

4. 代码实现

5. 代码测试

推荐阅读更多精彩内容