大数据流的在线Heavy Hitters算法（上篇）：基于计数器的方法

Question!

有海量（e.g. 日均千亿级别）的访问日志流，如何在不要求结果100%精确的前提下，尽量快速地统计出被访问次数最多的一些域名，以及它们的访问频率？

Heavy Hitters（频繁项）以及它衍生出来的Top-K（前K最高频项）是大数据和流式计算领域非常经典的问题，并且在海量数据+内存有限+在线计算的前提下，传统的HashMap + Heap-Sort方式几乎不可行，需要利用更加高效的数据结构和算法来解决。好在大佬们对Heavy Hitters问题进行了深入的研究，并总结出了很多有效的方案，本文简要介绍一种主流的类别，即基于计数器（Counter）的方法，包括：

Misra-Gries算法
Lossy Counting算法
Space Saving算法

在下篇文章中（计划这两天写，保证不鸽），会继续介绍另一类，即基于略图（Sketch）的方法。

Majority问题

先看一个非常经典的问题。

数组中有一个数字出现的次数超过数组长度的一半，请找出这个数字。

思路很简单：遍历数组，如果前后遇到的两个数不相等，就将这两个数消去，最终剩下的那个肯定是出现次数超过一半的那个数。具体到操作上，可以设定一个候选值与一个计数器，在遍历过程中，如果遇到的数与候选值相同则增加计数，不同则减少计数。候选值的计数减为0时，表示它肯定不是所求的结果，选取下一个数作为候选值，直到遍历完毕。

Misra-Gries算法

将Majority问题推广，就会变成：

数据流中一共有m个元素，请找出出现频率超过m / k的k - 1个元素。

可见，Majority问题就是上述问题k = 2时的特例。套用上面的计数器思路，就是Misra-Gries算法，该算法早在1982年就提出了。

如图所示，维护k - 1个候选值与计数器的集合：

如果元素在集合中，将其对应的计数器自增；
如果元素不在集合中且集合未满，就将元素加入集合，计数器设为1；
如果元素不在集合中且集合已满，将集合内所有计数器自减，计数器减为0的元素被移除。

Misra-Gries算法可以利用O(k)的空间对元素j的出现频率 f_j 做出如下的估计：

f_j - (m - m')/k <= f_j <= f_j
（其中f_j是j的真实出现频率，m'则是集合中的所有计数器之和）

为什么会有这样的结果呢？因为计数器自减只会发生在集合满时，且触发计数器自减的那个元素也不会被统计到，所以相当于少统计了(k - 1) + 1 = k个元素。也就是说，计数器自减的操作最多能发生(m - m')/k轮——即f_j与f_j之间的最大差值。由此可以总结出：

Misra-Gries算法对元素出现频率的估计总是偏低的；
k越大（即计数器的集合越大），频率的估计误差越小；
最终结果能够保证没有假阴性（false negative），即不会漏掉实际频率高于m / k的元素。但可能会出现假阳性（false positive），即混入实际频率低于m / k的元素。

Lossy Counting算法

Lossy Counting算法在2002年提出，与Misra-Gries算法的思路不太相同，但也很简单。其流程如下。

将数据流划分为固定大小的窗口。

统计每一个窗口中元素的频率，维护在计数器的集合中。然后将所有计数器的值自减1，将计数器减为0的元素从集合中移除。

重复上述步骤，每次都统计一个窗口中的元素，将频率值累加到计数器中，并将所有计数器自减1，并将计数器减为0的元素从集合中移除。

在窗口大小为1/ε的情况下，套用Misra-Gries算法的误差分析思路，容易得出Lossy Counting算法对元素出现频率的估计同样是偏低的，会出现假阳性，且误差在εm的范围内。换句话说，如果我们希望得出频率超过Fm的所有元素（F是个比例，如20%），那么我们最终得到的是频率超过(F - ε)m的结果。原作论文内建议F大约设为ε的10倍。

论文也指出Lossy Counting算法的空间占用为O(1/ε · log εm)，可见它是以比Misra-Gries算法更多的空间作为trade-off换来了更低的误差。

话说回来，Misra-Gries和Lossy Counting这样的算法为什么具有实用价值呢？根据著名的Zipf's Law思想，元素在数据流中的分布往往高度倾斜，少数频繁出现的元素占据了数据流中的大部分空间（考虑一下“二八定律”）。所以，即使它们是不精准的，但仍然能够给出大致正确的、有意义的统计结果。

Space Saving算法

Space Saving算法在2005年提出，本质上是Misra-Gries和Lossy Counting算法的折衷，也是目前应用最广泛的Heavy Hitters算法之一。它维护k = 1/ε个候选值与计数器的集合，操作流程如下图所示。

如果元素在集合中，将其对应的计数器自增；
如果元素不在集合中且集合未满，就将元素加入集合，计数器设为1；
如果元素不在集合中且集合已满，将集合内计数器值最小的元素移除，将新元素插入到它的位置，并且在原计数值的基础上自增。（这里维护计数值最小的元素可以用传统的堆）

可见，Space Saving算法构建在Misra-Gries算法的基础上，且只有第三种情况的处理方式是不一样的——借鉴了Lossy Counting的合并思路。除了只需要O(k)的空间之外，这样操作的好处是，所有计数器的和一定等于数据流的总元素数m（因为不需要做减法，只需要自增），且那些没有被移除过的元素的计数值是准确的。容易分析得出：

集合中最小的计数值min一定不会大于m / k = εm，同时能够保证找出所有频率大于εm的元素；
元素出现频率的估计误差同样在εm的范围内，不过会偏高；
Space Saving算法也有假阳性的问题，特别是在非频繁项集中位于流的末尾时。

Space Saving算法在贴近实际应用的Zipfian数据集上的benchmark如下图所示，可见与其他算法相比，无论在准确率方面还是效率方面都几乎是最优的。

在大数据相关的组件中，笔者所熟知的Space Saving算法应用有两处：一是Apache Kylin中的Top-N近似预计算特性；二是ClickHouse函数库中的anyHeavy()函数，它能够返回数据集中任意一个频繁项。特别地，它们使用的都是并行化的Space Saving算法，能够显著提升多线程环境下的计算效率。

The End

明天早起搬砖，民那晚安晚安。