数据结构和算法（五）：图、深度优先搜索和广度优先搜索、字符串匹配算法、Trie树、AC自动机

从广义上来讲：数据结构就是一组数据的存储结构 ，算法就是操作数据的方法

数据结构是为算法服务的，算法是要作用在特定的数据结构上的。

10个最常用的数据结构：数组、链表、栈、队列、散列表、二叉树、堆、跳表、图、Trie树

10个最常用的算法：递归、排序、二分查找、搜索、哈希算法、贪心算法、分治算法、回溯算法、动态规划、字符串匹配算法

本文总结了20个最常用的数据结构和算法，不管是应付面试还是工作需要，只要集中精力攻克这20个知识点就足够了。

数据结构和算法（一）：复杂度、数组、链表、栈、队列的传送门

数据结构和算法（二）：递归、排序、通用排序算法的传送门

数据结构和算法（三）：二分查找、跳表、散列表、哈希算法的传送门

数据结构和算法（四）：二叉树、红黑树、递归树、堆和堆排序、堆的应用的传送门

数据结构和算法（五）：图、深度优先搜索和广度优先搜索、字符串匹配算法、Trie树、AC自动机的传送门

数据结构和算法（六）：贪心算法、分治算法、回溯算法、动态规划、拓扑排序的传送门

第二十一章图

首先呢，先思考一个问题，如何存储微博、微信等社交网络中的好友关系呢？

一、什么是图？及图中的几个基础概念

1. 图跟前边讲的树一样，也是一种非线性表结构，比树更加复杂，树中的元素我们称之为节点，图中的元素就称之为顶点，从下图可以看出，图的顶点可以与任意顶点建立关系，我们把这种关系称之为边（edge）。
  
  图中的顶点和边
1. 我们可以把微信的好友关系看做一张图，其中每个用户都可以看做一个顶点，用户之间的好友关系就可以看做边，每个用户有多少好友，就叫做顶点的度，度就是跟顶点相连接的边的条数。
1. 微博中允许单向关注，也就是用户A关注了用户B，但是用户B没有关注用户A，我们就可以用有向图，来表示这种关系，如下图所示，我们把有方向的图叫做有向图，没有方向的图叫做无向图。
  
  有向图
1. 在图中，我们把一个顶点有多少条边叫做度，如果图有方向，就把指向顶点的边数叫做入度，从这个顶点指出去的边叫做出度，如下图所示。对应到微博的例子，入度就表示有多少粉丝，出度就表示关注了多少人。
  
  度、入度、出度
1. QQ中不但记录了好友关系，还记录了亲密度，这种带亲密度的好友关系，我们可以用带权图来表示，如下图，每条边都有一个权重(weight)，可以通过这个权重来表示QQ中的亲密度。
  
  带权图

二、如何在内存中存储图？

方法一：邻接矩阵法

1. 用连续的内存空间存储图的方法叫做领接矩阵（Adjacency Matrix），邻接矩阵的底层是二维数组，对无向图来说，如果顶点i和顶点j之间有边，我们就将A[i][j]和A[j][i]标记为1；对于有向图来说，如果顶点i和顶点j之间只有一条从顶点i指向顶点j的边，就只将A[i][j]标记为1；对于带权图来说，数组中存放的是响应的权重。如下图所示：
  
  邻接矩阵存储法.png
1. 用邻接矩阵存储图，虽然简单直观，但是比较浪费内存空间。例如在无向图中，如果A[i][j]等于1，那么A[j][i]也一定等于1，我们存储一个其实就够了，从对角线一份为二，我们只需要存储一半就够了，另一半就浪费了。如下图：
  
  用邻接矩阵存储无向图有点浪费

1. 用邻接矩阵的方法存储图，相当于给所有的顶点之间的关系都预留的内存，但是如果我们是稀疏图，也就是说，顶点很多，但是每个顶点的边并不多的时候，用邻接矩阵就更加浪费了，例如，微信有好几个亿的用户，但是每个用户的好友并不多，一般也就几百个，对应在图中，就是好几亿个顶点，每个顶点就几百个边，用邻接矩阵来存储的话，绝大部分的空间都被浪费了。
1. 也不是说邻接矩阵存储法完全没有优点，首先，邻接矩阵存储方式简单、直观，基于数组，获取顶点之间的关系非常高效；其次，计算方便，很多图的运算可以转换成矩阵之间的运算，例如求解最短路径问题，就是利用矩阵循环相乘若干次得到结果。

方法二：邻接表存储法

1. 邻接表的每个顶点对应一条链表，链表中存储的是与此顶点有关系的其他顶点，如下图，就是一个有向图用邻接表法存储的直观展示。
  
  有向图用邻接表存储
1. 相比于邻接矩阵存储，邻接表存储更节省内存，但是使用起来比较耗时，例如，想知道顶点2与顶点4之间是否存在关系，就需要遍历顶点2所对应的的链表。我们也可以仿照前边处理散列冲突的方式，来处理遍历链表所带来的的耗时问题，将链表替换成跳表或者红黑树，这样查找的时间复杂度就从O(n)变成了O(logn)了。

三、如何在存储微博中的社交关系呢？

1. 社交网络是一个稀疏图，用邻接矩阵法存储比较浪费时间，所以应该采用邻接表法来存储，但是用一个邻接表只能表示用户关注了谁，无法知道粉丝列表，所以我们还需要一个逆邻接表，来存放粉丝，也就是存放指向这个定向的边，如下图：
  
  邻接表和逆邻接表
1. 用链表的话时间复杂度是O(n)，所以我们应该将链表替换成跳表或者红黑树等动态数据结构，由于微博中需要按照用户首字母排序，所以我们可以使用跳表，跳表的插入、查找、删除的时间复杂度都是O(logn)非常高效，同时跳表中的数据都是有序的，分页获取粉丝列表或者关注列表也很高效。
1. 微博拥有好几亿的用户，一台机器的内存肯定是不够的，我们可以用过哈希算法进行数据分片，将邻接表存放到不同机器上。可以这样处理：对数据进行哈希得到哈希值，再用这个哈希值和机器总数取模，得到机器编号，将这个数据的邻接表放到这台机器上就可以了。
  
  用哈希算法进行数据分片
1. 我们还可以利用外部存储来持久化存储数据，例如使用数据库，并建立多级索引。

第二十二章深度优先搜索和广度优先搜索

一、什么是搜索算法

1. 算法是作用在具体数据结构上的，深度优先搜索和广度优先搜索算法都是作用于图这种数据结构上的，这是因为图的表达能力很强，大部分涉及搜索的场景都可以抽象成“图”。
1. 图的搜索算法，其实在图上找出从一个顶点到另一个顶点的路径，今天介绍两种最简单、最暴力的搜索算法：广度优先搜索（Breadth-First-Search）和深度优先搜索（Depth-First-Search）

二、BFS-广度优先搜索（Breadth-First-Search）

1. 广度优先搜索，其实就是地毯式的层层递进策略，即先查找最近的顶点，再找次近的，依次往外搜索，如下图：
  
  广度优先搜索
1. 用Swift代码实现，如下

//单链表
class SingleLinkedList{
    var headNode: SingleLinkedNode?
    var nodeMap: Dictionary<String, SingleLinkedNode>?
    var nodeCount: Int = 0
    
    //插入一个节点
    func insertNode(node: SingleLinkedNode){
        nodeMap?.updateValue(node, forKey: node.key)
        nodeCount = nodeCount + 1
        if headNode == nil{
            headNode = node
        }else{
            lastNode().next = node
        }
    }
    
    //获取一个节点
    func lastNode() -> SingleLinkedNode{
        var node = headNode
        while node?.next != nil {
            node = node?.next
        }
        if node != nil{
            return node!
        }else{
            return SingleLinkedNode(key: "error", value: "error")
        }
    }
    
    //根据key获取节点
    func getNode(key: String) -> SingleLinkedNode?{
        return nodeMap?[key]
    }
    
    //删除node的下一个节点
    func deleteNode(_ node: SingleLinkedNode){
        if (nodeMap?[node.key] ?? SingleLinkedNode(key: "", value: "")) == node{
            nodeCount = nodeCount - 1
            node.next = node.next?.next
        }else{
            print("该节点不存在")
        }
    }
    
    func size() -> Int{
        return nodeCount
    }
}

//单链表的节点
class SingleLinkedNode: Equatable{
    static func == (lhs: SingleLinkedNode, rhs: SingleLinkedNode) -> Bool {
        if lhs.key == rhs.key && lhs.value == rhs.value && lhs.next == rhs.next{
            return true
        }
        return false
    }
    
    var key:String = "-1"
    var value: String?
    var next: SingleLinkedNode?
    init(key: String,value: String) {
        self.key = key
        self.value = value
    }
}

//先入先出的顺序队列
class Queue<T>{
    private var array: Array<T> = Array()
    //入队
    func enqueue(_ e: T){
        array.append(e)
    }
    //出队
    func dequeue() -> T?{
        if let first = array.first{
            array.remove(at: 0)
            return first
        }
        return nil
    }
    
    func size() -> Int{
        return array.count;
    }
}

let queue = Queue<Int>()
queue.enqueue(11)
queue.enqueue(2)
queue.enqueue(333)
let testQueue1 = queue.dequeue()
let testQueue2 = queue.dequeue()
let testQueue3 = queue.dequeue()

//无向图
class Graph{
    private var peakCount: Int = 0                          //顶点的个数
    private var linkedArray = Array<SingleLinkedList>()     //单链表的数组
    
    //初始化
    init(peakCount: Int) {
        self.peakCount = peakCount
        let linkedList = SingleLinkedList()
        self.linkedArray = Array(repeating: linkedList, count: self.peakCount)
    }
    
    //增加一条边（无向图一条边需要存两次）
    func addEdge(s: Int,t: Int){
        let nodeT = SingleLinkedNode(key:"\(t)" ,value: "\(t)")
        let nodeS = SingleLinkedNode(key: "\(s)", value: "\(s)")
        linkedArray[s].insertNode(node: nodeT)
        linkedArray[t].insertNode(node: nodeS)
    }
    
    // 广度优先搜索 从顶点开始 寻找到t顶点的路径 打印出来
    func bfs(start_s: Int,target_t: Int){
        //如果起点等于重点 直接return
        if start_s == target_t {
            return
        }
        //已经访问过的顶点
        var visited = Array<Bool>()
        //先入先出的队列，负责存储已经被访问过但其相连的顶点还没有访问的顶点
        let queue = Queue<Int>()
        //将第一个顶点s加入队列
        queue.enqueue(start_s)
        //记录搜索路径
        var recordSearchPath = Array(repeating: -1, count: peakCount)
        while(queue.size() != 0){
            //当前顶点
            let currentPeak = queue.dequeue() ?? 0
            for i in 0..<linkedArray[currentPeak].size(){
                //当前顶点所对应的的节点
                let currentNode = linkedArray[currentPeak].getNode(key: "\(i)")
                //当前节点的位置
                let currentSub = Int(currentNode?.key ?? "0") ?? 0
                if !visited[currentSub]{
                    recordSearchPath[currentSub] = currentPeak
                    if currentSub == target_t{
                        print("找到了")
                        return
                    }
                    visited[currentSub] = true
                    queue.enqueue(currentSub)
                }
            }
        }
    }
}

1. 广度优先搜索最坏情况下，终止顶点t与起始顶点s相距很远，需要遍历整个图才能找到，每个顶点都要进队列一次，每条边也都要被访问一次，所以广度优先搜索的时间复杂度是O(V+E)，V代表顶点数量，E代表边的数量；对于一个连通图来说，图中的所有顶点都是连通的，E肯定大于等于V-1，所以广度优先搜索的时间复杂度也可以简写为O(E)，E代表边数。
1. 广度优先搜索的空间消耗主要在几个辅助变量上，辅助变量的存储空间的大小不过超过顶点的个数，所以空间复杂度是O(V)，V代表顶点数。

三、DFS-深度优先搜索（Depth-First-Search）

1. 深度优先搜索，其实就是走迷宫，你站在岔路口上，选择一条路往下走，走着走着发现走不通了，就退回到上一个岔路口，重新选择一条路继续走，按照这种策略，一直走下去，直到找到出口为止。如下图：
  
  深度优先搜索策略
1. 用Swift代码实现，如下
1. 从上图中可以看出，按照深度优先搜索策略，每条边最多会被访问2次，一次是遍历，一次是回退，所以深度优先搜索的时间复杂度是O(E)，E代表边数
1. 从代码可以看出，深度优先搜索的内存消耗跟顶点的个数成正比，所以空间复杂度为O(V)，V代表顶点数。

第二十三章字符串匹配基础

字符串匹配算法分为单模式串匹配和多模式串匹配。单模式匹配，即一个串和另一个串进行匹配，例如：BF算法、RK算法、BM算法、KMP算法；也有多模式串匹配，即在一个串中同时查找多个串，例如：Tire树。

一、BF算法

1. BF算法的BF是Brute Force的缩写，中文叫做暴力匹配算法，从名字就可以看出，这种算法简单、暴力、好懂，相应的性能也不高。
1. 这里有两个概念必须先弄懂：主串和模式串，我们在字符串A中查找字符串B，A就是主串，B就是模式串。我们把主串的长度记为n，模式串长度记为m，因为在主串中查找模式串，主串肯定比模式串长，n>m.
1. BF的核心思想是：在主串中，检查起始位置分别是0、1、2...n-m且长度为m的n-m+1个子串，看有没有和模式串匹配的。例如下图所示
  
  BF核心思想.png
1. 极端情况下，BF需要匹配n-m+1次，每次匹配m个字符，所以最坏时间复杂度为O(n*m)

二、RK算法

1. RK算法的全称是Rabin-Karp算法，是BF算法的升级版，RK算法在BF算法的基础上，引入了哈希算法，降低了时间复杂度。
1. RK算法的思想是这样的：我们通过哈希算法对主串中的n-m+1个子串求哈希值，然后逐个与模式串的哈希值比较，如果相同就证明匹配成功了。（如果出现哈希冲突，可以将哈希值相同的两个串，在进行一次逐个字符的比较）
1. 整个RK算法可以分为两部分：计算子串的哈希值、模式串的哈希值与子串哈希值进行比较。我们可以通过设计巧妙的哈希算法，使得扫描一次主串就可以得到所有子串的哈希值，这部分的时间复杂度为O(n)；哈希值之间的比较的时间复杂度是O(1)，需要比较n-m+1次，所以这部分的时间复杂度也是O(n)，所以整体RK算法的时间复杂度是O(n)。

三、BM算法

1. BM算法是一种非常高效的字符串匹配算法，其性能是著名的KMP算法的3~4倍。
1. 前边讲的匹配算法都是像下图一样，将模式串一位一位的往前移动，与主串的子串进行一次一次的对比进行查找的，而BM算法就第二个图一样，为了提高查找效率，找出了移动规律，按照规律跳着往后移动，例如：发现c与d不匹配了，就将模式串往后移动三位。
  
  模式串一位一位往后移动
  
  BM找到了移动规律，可以移动多位

1. BM算法发现移动规律有两个：坏字符规则和好后缀规则
1. 坏字符规则
- (1). 我们从模式串的末尾往前倒着匹配，当我们发现某个字符没法匹配时，我们就把这个字符叫做坏字符。
  
  坏字符.png
- (2). 如果坏字符在模式串中存在，那么我们就把怀字符对应的模式串中的这个字符的下标记做xi，如果怀字符在模式串中不存在，我们就把xi记作-1；我们把怀字符对应在模式串中的字符的下标记做si；规律就是：模式串往后移动的位置就等于si-xi。如下图所示：
  
  坏字符规则移动位数
1. 好后缀规则
- (1). 我们把主串中和模式串相匹配的字符，称之为好后缀，如下图：
  
  好后缀
- (2). 我们把好后缀bc记做{u}，拿{u}在模式串中查找，如果找到了另一个跟{u}相匹配的子串{u*}，我们就将模式串滑动到子串{u*}跟主串中{u}对齐的位置，如下图:
  
  找到与好后缀相同的子串，则滑动对齐
- (3). 如果在模式串中找不到另一个与{u}相匹配的子串，我们还得考察好后缀的后缀子串，是否存在跟模式串的前缀子串相匹配。如果好后缀的后缀子串跟模式串的前缀子串相匹配，则将模式串滑动到对齐的位置，如下图：
  
  滑动模式串到图中位置
- (4). 如果好后缀的后缀子串与模式串的前缀子串不匹配，则直接将模式串滑动到主串的好后缀{u}的后面，如下图：
  
  {u}代表好后缀
1. 当模式串和主串中的某个字符不匹配时，我们该如何选择使用坏字符规则还是好后缀规则呢？我们可以分别计算坏字符规则和好后缀规则往后移动的位数，然后取两个数最大的，作为模式串往后移动的位数。

第二十四章 Trie树

一、什么是Trie树

1. Trie树，也叫字典树，顾名思义，是一种树形结构，专门用来处理字符串匹配，经常用来解决在一组字符串集合中快速查找某个字符串的问题。
1. Trie树的本质就是，利用字符串之间的公共前缀，将重复的前缀组合在一起，就像下图一样：
  
  Trie树
1. 利用how、hi、her、hello、so、see等字符串构造一颗Trie树，过程如下图所示：
  
  构造一颗Tire树

二、如何实现一颗Trie树？

1. Trie树主要有两个操作：将字符串集合构造成Trie树、在Trie树中查找一个字符串
1. Trie树是一个多叉树，可以通过下标和字符一一对应的数组，来存储子节点的指针，如下图所示：
  
  Trie树的存储
1. 一个Trie树的结点，用代码可以这么写：

class TrieNode{
    var data: Character?         //存放一个字符，例如：“h”
    var childArray: [TrieNode]?  //存放子节点指针的数组，例如：存放以h开头的字符的子节点的指针
}

1. 想在一组字符串中频繁的查找一个字符串，使用Trie树解决就会非常高效，过程分为构建Tire树和查找该字符串。构建Trie树的过程需要扫描所有字符串，时间复杂度是O(n)，n代表所有字符串的长度之和，一旦构建Trie树成功，后续查询就会非常高效，如果要查询的字符串长度为k，那么我们只需要对比大约k个节点，就可以完成操作，时间复杂度为O(k)，k表示要查找的字符串的长度。
1. Trie树比较消耗内存，是一种空间换时间的思路，用数组存放子节点的指针，我们知道存放一个字符需要1个字节，而存放26个字母的指针，需要26*8=208个字节，额外占用了208个字节，这还只是26个字母的情况。我们可以将数组换成有序数组、跳表、散列表、红黑树等数据结构，来节省内存的消耗。

三、Trie树与散列表、红黑树的比较

1. 如果想要在一组字符串中精确查找某个字符串，一般建议使用散列表或者红黑树。
1. Trie树的优势不在于动态集合数据的查找，而在于查找前缀匹配的字符串，例如：搜索引擎中的关键词提示功能、输入法自动补全功能、IDE代码编辑器自动补全功能等。

第二十五章 AC自动机

一、什么是 AC自动机？

二、如何构建AC自动机?

三、如何在AC自动机上匹配主串？

最后编辑于：2019.11.21 20:09:56

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,088评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,715评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,361评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,099评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 60,987评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,063评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,486评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,175评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,440评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,518评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,305评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,190评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,550评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,880评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,152评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,451评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,637评论 2赞 335

数据结构和算法（五）：图、深度优先搜索和广度优先搜索、字符串匹配算法、Trie树、AC自动机

第二十一章 图

一、什么是图？及图中的几个基础概念

二、如何在内存中存储图？

三、如何在存储微博中的社交关系呢？

第二十二章 深度优先搜索和广度优先搜索

一、什么是搜索算法

二、BFS-广度优先搜索（Breadth-First-Search）

三、DFS-深度优先搜索（Depth-First-Search）

第二十三章 字符串匹配基础

字符串匹配算法分为单模式串匹配和多模式串匹配。单模式匹配，即一个串和另一个串进行匹配，例如：BF算法、RK算法、BM算法、KMP算法；也有多模式串匹配，即在一个串中同时查找多个串，例如：Tire树。

一、BF算法

二、RK算法

三、BM算法

第二十四章 Trie树

一、什么是Trie树

二、如何实现一颗Trie树？

三、Trie树与散列表、红黑树的比较

第二十五章 AC自动机

一、什么是 AC自动机？

二、如何构建AC自动机?

三、如何在AC自动机上匹配主串？

推荐阅读更多精彩内容

第二十一章图

第二十二章深度优先搜索和广度优先搜索

第二十三章字符串匹配基础