Java数据结构之 树(Tree)
1. 二叉查找树(Binary Search Tree)
性质:
1)若左子树不为空,则左子树上所有节点的值均小于它的根节点的值;
2)若右子树不为空,则右子树上所有节点的值均大于它的跟几点的值;
3)左右子树也分别为二叉查找树;
4)没有键值相同的节点(因此,插入的时候一定是叶子节点);
注: 插入有序节点时,退化成单支树;查找效率最好O(nlogn),最坏O(n);查找效率和插入效率相同(直插入叶子节点);删除效率最好O(logn)+O(1)->只有左子树或者只有右子树,删除效率最差O(logn)+O(logn)->左右子树同时存在;新插入的节点总是叶子节点!
2. 平衡二叉树
首先平衡二叉树是一棵二叉查找树,满足二叉查找树的所有性质。其次,它的左右两个子树的高度差的绝对值不超过1,并且左右两个子树都是平衡二叉树。这个方案很好地解决了二叉查找树退化成链表的问题。这样把插入,查找,删除的时间控制在了O(logn)左右的时间。严格遵守平衡二叉树性质的是AVL树,平衡二叉树大部分操作与二叉查找树类似,主要不同在于插入删除的时候平衡二叉树的平衡可能被改变。
调整平衡:找出最小的不平衡二叉树(距离插入节点最近且左右子树高度相差大于1的节点作为根的子树),利用旋转重新调整平衡性。
3. 红黑树
红黑树也是一棵二叉查找树,并且是一棵平衡二叉树(弱平衡)。与AVL树不同,红黑树并不是严格遵守平衡二叉树的定义,在增加或者删除节点的时候,根据不同情况,AVL树旋转的次数比红黑树更多,所以红黑树用非严格的平衡来换取增删节点旋转次数的降低。
特点:在二叉查找树的基础上红黑树有如下属性
1)每个节点或者是黑色或者是红色;
2)根节点是黑色;
3)每个叶子节点是黑色(这里的叶子节点,指的是为空Null的叶子节点);
4)如果一个节点是红色的,那么他的子节点必须是黑色;
5)从一个节点到该节点的子孙外部节点的所有路径上包含相同数目的黑节点;
由性质5我们可以得知,红黑树最大路径长度不超过最短路径长度的2倍:
最长:根(黑)->红->黑->...黑(叶子节点) 红色穿插
最短:根(黑)->黑->黑->...黑(叶子节点) 全是黑色
- 查找代价:基本维持在O(logn)左右,但最差情况下(最长是最短的2倍)比AVL树略差;
- 插入代价:RBT插入需要旋转操作和变色操作。由于只需要保持RBT基本平衡,因此插入节点最多只需要旋转2次;
- 删除代价:RBT删除一个节点最多需要旋转3次,好于AVL树;
由于RBT不是高度平衡的,因此插入和删除操作改变树的平衡性的概率远小于AVL树
红黑树插入节点的操作流程:
- 将红黑树当做一棵二叉查找树,将节点插入;
- 将插入的节点着色为红色;
- 通过一系列旋转和着色操作,使之重新成为一棵红黑色树(核心思路就是将红色的节点向上移动到根节点,然后,将根节点设置为黑色);
4. B树
B树和B+树可以解决磁盘IO问题。每个磁盘页对应树的节点,平衡二叉树由于树的深度过大而造成磁盘IO读写过于频繁,导致效率不佳。为了减少磁盘IO的次数,必须降低树的深度。
- 每个节点存储多个元素;
- 摒弃二叉树结果,才用多叉树;
B树(多路查找树)-> 查找效率O(logn)
M阶B树的特性(最多一个节点可以有m个孩子):
1)根节点至少有两个孩子;
2)每个中间节点包含k-1个元素,指向k个孩子,ceil(m/2)<=k<=m;
- 每个叶子节点包含k-1个元素,其中ceil(m/2)<=k<=m;
4)所有叶子节点都位于同一层;
5)每个节点中元素从小到大排列,节点中k-1个元素正好是k个孩子所包含元素的值域划分;
B树中所有节点的孩子节点的最大个数为B树的阶。对高度为k的m阶B树进行插入,新节点一般插入在叶子层:1) 若该节点中的元素个数小于m-1,直接插入; 2)若该节点中的元素个数等于m-1,节点分裂,以中间元素为界节点一分为二,产生一个新节点,并把中间元素插入到父节点中;
5. B+树
B+树是B树的变种,有着比B树更高的查询效率,大体上两者类似,m阶B+树的特征:
1)有k个子树的中间节点包含有k个元素(B树中是k-1个),每个元素不保存数据(B树元素是保存数据的),只用来索引,所有数据保存于叶子节点;
2)所有的叶子节点中包含了全部元素的信息,以及指向含这些元素的指针,叶子节点本身依关键字的大小自小而大顺序链接;
3)所有的中间元素(中间节点元素)同时存在于子节点,在子节点元素中是最大(最小)的,B+树查询每次必须到达叶子节点,范围查询上,B+树有顶向下二分查找确定下限,再通过叶子节点的链表顺序遍历即可找到上限;
B+树比B树的优势:
- 单一节点存储更多的元素,查询IO次数更少;
- 所有查询都要到叶子节点,性能稳定;
- 所有叶子节点形成有顺序的链表;