MIT公开课没有讲到的内容,堆排序
主要部分内容引用自Blog:https://www.cnblogs.com/Anker/archive/2013/01/23/2873422.html
和《算法导论》
- 介绍堆,最大堆,最小堆
- 构建最大堆
- 堆排序算法
- 优先级队列
什么是堆
堆给人的感觉是一个二叉树,但是其本质是一种数组对象,因为对堆进行操作的时候将堆视为一颗完全二叉树,树种每个节点与数组中的存放该节点值的那个元素对应。所以堆又称为二叉堆,堆与完全二叉树的对应关系如下图所示
通常给定节点i,可以根据其在数组中的位置求出该节点的父亲节点、左右孩子节点,这三个过程一般采用宏或者内联函数实现。数组的下标是从1开始的,可以得到:
parent(i)=i/2 left(i) = 2*i right(i) = 2*i+1
最大堆和最小堆
根据节点数值满足的条件,可以将分为最大堆和最小堆
最大堆的特性是:除了根节点以外的每个节点i,有A[parent(i)] >= A[i]
最小堆的特性是:除了根节点以外的每个节点i,有A[parent(i)] >=A[i]
如果把堆看成一个棵树,有如下的特性:
- 含有n个元素的堆的高度是lgn
- 当用数组表示存储了n个元素的堆时,叶子节点的下标是n/2+1,n/2+2,……,n
- 在最大堆中,最大元素该子树的根上;在最小堆中,最小元素在该子树的根上
堆有个关键操作过程是如何保持堆的特有性质,给定一个节点i,子树满足堆性要保证以i为根的质。以最大堆作为例子介绍,并给出了递归形式的保持最大堆特性的操作过程MAX-HEAPIFY
MAX-HEAPIFY(A, i)
l <- left(i)
r <- right(i)
if l <= heap-size(A) and A[l] > A[i]
then largest <- l
else largest <- i
if r <= heap-size(A) and A[r] > A[largest]
then largest <- r
if largest not equal r
then exch A[i] <-> A[largest]
MAX-HEAPIFY(A, largest)
输入为数组A和下标i,结果使以i为根的子树称为最大堆,假定left(i)和right(i)为根的两个子树都是最大堆,如果A[i]小于其子女,让A[i]在最大堆中“下降”
操作过程如下图所示:
在节点i=2时,不满足最大堆的要求,需要进行调整,选择节点2的左右孩子中最大一个进行交换,然后检查交换后的节点i=4是否满足最大堆的要求,从图看出不满足,接着进行调整,直到没有交换为止。
扩展
课后习题要求给出其非递归的形式,非递归就要考虑要循环进行实现,需要考虑的是循环结束条件是什么。对一个给定的节点i,要对其进行调整使其满足最大堆的性质。总的思想是先找出节点i的左右孩子节点,然后从三者中找到最大的节点,如果找到的最大节点就是i,说明i节点满足堆的性质,此时循环就结束了。如果找到的最大节点不是节点i,那么这个时候就要将最大的节点(设为largest)与节点i进行交换,然后从largest节点开始循环进行调整,直到满足条件为止。
MAX-HEAP(A, i)
while true
l <- left(i)
r <- right(i)
if l <= heap-size(A) and A[l] > A[i]
then largest = l
else largest = i
if r <= heap-size(A) and A[r] > A[largest]
largest <- r
if largest not equal i
then exch A[i] <-> A[largest]
continue;
else break;
建堆
建立最大堆的过程是自底向上地调用最大堆调整程序将一个数组A[1.....N]变成一个最大堆。将数组视为一颗完全二叉树,从其最后一个非叶子节点(n/2)开始调整。调整过程如下图所示:
伪代码
BUILD-MAX-HEAP(A)
heap-size(A) <- length(A)
for i <- length(A)/2 down to 1
do MAX-HEAPIFY(A, i)
堆排序算法
堆排序算法过程为:先调用创建堆函数将输入数组A[1...n]造成一个最大堆,使得最大的值存放在数组第一个位置A[1],然后用数组最后一个位置元素与第一个位置进行交换,并将堆的大小减少1,并调用最大堆调整函数从第一个位置调整最大堆。给出堆数组A={4,1,3,16,9,10,14,8,7}进行堆排序简单的过程如下:
-
创建最大堆,数组第一个元素最大,执行后结果下图:
-
进行循环,从length(a)到2,并不断的调整最大堆,给出一个简单过程如下:
HEAP-SORT(A)
BUILD-MAX-HEAP(A)
for i <- length(A) down to 2
do exch A[1] <-> A[i]
heap-size(A) <- heap-size(A) - 1
MAX-HEAPIFY(A, 1)
堆排序算法时间复杂度:调整堆过程满足递归式T(n)<=T(2n/3)+θ(1),有主定理可以知道T(n) = O(lgn),堆排序过程中执行一个循环,调用最大堆调整函数,总的时间复杂度为O(nlgn)
思考
在创建最大堆的过程中,为什么从最后一个非叶子节点(n/2)开始到第一个非叶子(1)结束,而不是从第一个非叶子节点(1)到最后一个非叶子节点(n/2)结束呢?
作者的想法是:如果是从第一个非叶子节点开始创建堆,有可能导致创建的堆不满足堆的性质,使得第一个元素不是最大的。这样做只是使得该节点的和其左右孩子节点满足堆性质,不能确保整个树满足堆的性质。如果最大的节点在叶子节点,那么将可能不会出现在根节点中。例如下面的例子:
从图中可以看出,从第一个非叶子节点开始创建最大堆,最后得到的结果并不是最大堆。而从最后一个非叶子节点开始创建堆时候,能够保证该节点的子树都满足堆的性质,从而自底向上进行调整堆,最终使得满足最大堆的性质。
优先级队列
快速排序往往优于堆排序,但是堆排序有一个常见应用:优先级队列
最大优先级队列和最小优先级队列对应最大堆和最小堆
优先级队列一般操作
-在队列中插入数据
-返回队列中的最大或最小值
-从队列中移除数据
-增加或减小关键字的值