数据结构之Trie字典树

什么是Trie字典树

Trie 树,也叫“字典树”或“前缀树”。顾名思义,它是一个树形结构。但与二分搜索树、红黑树等不同的是,Trie 树是一种多叉树,即每个节点可以有 m 个子节点。它是一种专门处理字符串匹配的数据结构,用来解决在一组字符串集合中快速查找某个字符串的问题。

例如,在一个字典中有 n 个条目,如果使用普通的二分搜索树(不考虑退化),那么在该字典中查询指定条目的时间复杂度是 O(logn),如果有100w个条目(2^{20}),logn 大约为20。

而如果使用 Trie 树的话,查询每个条目的时间复杂度,和字典中一共有多少条目无关。时间复杂度为 O(w),其中 w 为查询单词的长度,而且绝大多数的单词长度都小于 10。由此可见,使用 Trie 树实现字符串查询,特别是只查询其前缀的情况下,是比普通的树形结构效率要更高的。

那么 Trie 树是如何做到其查询时间复杂度与条目数量无关的呢?这是因为 Trie 树的本质,就是利用字符串之间的公共前缀,将重复的前缀合并在一起。例如,我们将:how,hi,her,hello,so,see 这6个字符串构造成一颗 Trie 树。那么,最后构造出来的就是下面这个图中的样子:


image.png

其中,根节点不包含任何信息。每个节点表示一个字符串中的字符,从根节点到红色节点的一条路径表示一个字符串(注意:红色节点并不都是叶子节点)。

为了更容易理解 Trie 树是怎么构造出来的,我们可以看如下 Trie 树构造的分解过程。构造过程的每一步,都相当于往 Trie 树中插入一个字符串。当所有字符串都插入完成之后,Trie 树就构造好了:


image.png

image.png

当我们在 Trie 树中查找一个字符串的时候,比如查找字符串“her”,那我们将要查找的字符串分割成单个的字符 h,e,r,然后从 Trie 树的根节点开始匹配。如图所示,绿色的路径就是在 Trie 树中匹配的路径:


image.png

之前有提到过, Trie 树是多叉树,那么这个“多叉”是怎么体现的呢?通常来讲,如果你只针对小写字母构造一棵 Trie 树,就像我们上面的例子,那么每个节点中使用一个长度为26的数组来表示其多个子节点即可。如下所示:

class Node {
    char data;
    Node children[26];
}

而如果我们的需求不仅仅是只包含小写字母,希望这是一棵通用的 Trie 树,那么就需要设计一个能动态变化的子节点容器,使得每个节点有若干指向下个节点的指针。例如,我们可以使用一个 Map 来实现,如下所示:

class Node {
    boolean isWord;  // 标识是否是单词的结尾
    Map<Character, Node> next;
}

Trie字典树基础代码

通过以上的介绍,我们已经了解到了 Trie 树的基本概念。接下来,让我们实现一下 Trie 树的基础功能代码,从代码上对 Trie 树有个直观的认识。具体代码如下:

package tree;

import java.util.Map;
import java.util.TreeMap;

/**
 * Trie树
 *
 * @author 01
 * @date 2021-01-28
 **/
public class TrieTree {

    private final Node root;

    private int size;

    /**
     * Trie树中每个节点的结构
     */
    private static class Node {
        /**
         * 标识是否是单词的结尾
         */
        private boolean isWord;

        /**
         * 使用Map来实现动态存储多个子节点
         */
        private final Map<Character, Node> next;

        public Node(boolean isWord) {
            this.isWord = isWord;
            next = new TreeMap<>();
        }

        public Node() {
            this(false);
        }
    }

    public TrieTree() {
        root = new Node();
        size = 0;
    }

    /**
     * 获取Trie中存储的单词数量
     */
    public int getSize() {
        return size;
    }

    /**
     * 向Trie中添加一个新的单词word
     */
    public void add(String word) {
        Node current = root;
        for (int i = 0; i < word.length(); i++) {
            char c = word.charAt(i);
            if (current.next.get(c) == null) {
                // 没有与之对应的子节点,创建一个新的子节点
                current.next.put(c, new Node());
            }
            current = current.next.get(c);
        }

        if (!current.isWord) {
            // 添加的是新的单词,标识该节点是单词的结尾
            current.isWord = true;
            size++;
        }
    }
}

Trie字典树的查询

Trie 字典树的查询主要就是查询某个单词是否存在于 Trie 中,其主要逻辑与 add 方法基本上是一样的。代码如下:

/**
 * 查询单词word是否在Trie中
 */
public boolean contains(String word){
    Node current = root;
    for (int i = 0; i < word.length(); i++) {
        char c = word.charAt(i);
        if (current.next.get(c) == null) {
            return false;
        }
        current = current.next.get(c);
    }

    // 只有当最后一个字母所对应的节点标识了是一个单词的结尾,
    // 才能认为这个单词存在于Trie中
    return current.isWord;
}

Trie字典树的前缀查询

相比于查询某个单词是否存在 Trie 树中,前缀查询的使用范围更广,也是 Trie 树中的主要查询操作。通过前缀查询,我们可以实现像搜索引擎那样的搜索关键词提示功能。实现前缀查询的代码与查询某个单词基本上是一样的,如下所示:

/**
 * 查询是否在Trie中有单词以prefix为前缀
 */
public boolean hasPrefix(String prefix) {
    Node current = root;
    for (int i = 0; i < prefix.length(); i++) {
        char c = prefix.charAt(i);
        if (current.next.get(c) == null) {
            return false;
        }
        current = current.next.get(c);
    }

    return true;
}

Trie字典树和简单的模式匹配

接下来,我们尝试使用Trie字典树来解决LeetCode上的一个简单模式匹配的问题,该问题的编号是211:

关于这个问题的详细内容,可以查看以上链接,这里就不做赘述了。对于该问题,具体的实现代码如下:

package tree.trie;

import java.util.Map;
import java.util.TreeMap;

/**
 * Leetcode 211. Add and Search Word - Data structure design
 * https://leetcode.com/problems/add-and-search-word-data-structure-design/description/
 *
 * @author 01
 */
public class WordDictionary {

    private static class Node {

        private boolean isWord;
        private final Map<Character, Node> next;

        public Node(boolean isWord) {
            this.isWord = isWord;
            next = new TreeMap<>();
        }

        public Node() {
            this(false);
        }
    }

    private final Node root;

    /**
     * Initialize your data structure here.
     */
    public WordDictionary() {
        root = new Node();
    }

    /**
     * Adds a word into the data structure.
     */
    public void addWord(String word) {
        Node cur = root;
        for (int i = 0; i < word.length(); i++) {
            char c = word.charAt(i);
            if (cur.next.get(c) == null) {
                cur.next.put(c, new Node());
            }
            cur = cur.next.get(c);
        }
        cur.isWord = true;
    }

    /**
     * Returns if the word is in the data structure.
     * A word could contain the dot character '.' to represent any one letter.
     */
    public boolean search(String word) {
        return match(root, word, 0);
    }

    private boolean match(Node node, String word, int index) {
        // 递归到底了,返回该节点是否是一个单词
        if (index == word.length()) {
            return node.isWord;
        }

        char c = word.charAt(index);
        if (c != '.') {
            if (node.next.get(c) == null) {
                return false;
            }

            // 递归继续匹配下一个字母
            return match(node.next.get(c), word, index + 1);
        } else {
            // 包含通配符,需要遍历匹配全部子节点
            for (char nextChar : node.next.keySet()) {
                if (match(node.next.get(nextChar), word, index + 1)) {
                    return true;
                }
            }

            return false;
        }
    }
}

Trie字典树和字符串映射

最后,我们再来解决一个LeetCode上的677号问题,该问题的链接如下:

对于该问题我们就是要将Trie字典树作为一个映射,每个单词就是一个 key,对应着一个 value,该 value 只存在于单词最后一个字母对应的节点。如下图所示:

image.png

有了这个形象的概念后,代码编写起来就简单了,所以也建议各位实现算法和数据结构时可以尝试多画图。对于该问题的具体实现代码如下:

package tree.trie;

import java.util.Map;
import java.util.TreeMap;

/**
 * 键值映射
 * https://leetcode-cn.com/problems/map-sum-pairs/
 *
 * @author 01
 */
public class MapSum {

    private static class Node {

        private int value;
        private final Map<Character, Node> next;

        public Node(int value) {
            this.value = value;
            next = new TreeMap<>();
        }

        public Node() {
            this(0);
        }
    }

    private final Node root;

    /**
     * Initialize your data structure here.
     */
    public MapSum() {
        root = new Node();
    }

    public void insert(String key, int val) {
        Node cur = root;
        for (int i = 0; i < key.length(); i++) {
            char c = key.charAt(i);
            if (cur.next.get(c) == null) {
                cur.next.put(c, new Node());
            }
            cur = cur.next.get(c);
        }
        cur.value = val;
    }

    public int sum(String prefix) {
        Node cur = root;
        // 找到这个前缀最后一个字母所对应的节点
        for (int i = 0; i < prefix.length(); i++) {
            char c = prefix.charAt(i);
            if (cur.next.get(c) == null) {
                return 0;
            }
            cur = cur.next.get(c);
        }

        // 对该节点所有路径下的子节点的value进行求和
        return sum(cur);
    }

    private int sum(Node node) {
        int res = node.value;
        // 遍历所有子节点
        for (char c : node.next.keySet()) {
            // 对每个子节点路径上的value进行递归求和
            res += sum(node.next.get(c));
        }

        return res;
    }
}
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容