【Anchor系列】K-Means(++)聚类生成anchor尺寸

Date: 2020/11/02

Coder: CW

Foreword:

通常情况下,anchor的大小是根据经验而人工预设的,这种做法在差异较大的数据集之间可能不能达到平衡的表现。比如有两个数据集,它们的 gt box 的大小差异较大,在其中一个数据集anchor能比较好地匹配 gt box,但同样的这批anchor在另一个数据集中的匹配情况可能就比较尴尬了。那么,有没有一种自适应的方法,让anchor能够根据数据集 gt box 的大小来自动生成相应的尺寸呢?

结论先行——有滴!

想一想,如何做到自适应?在一个数据集里,有那么多的物体,对应各种大小的 gt box,它们的尺寸可能相差悬殊,因此我们可以让这些 gt box “抱团”,将尺寸较为接近的 gt box归为一类,这样就能得到不同的“团”,每个团中的 gt box 尺寸都处于相同水平,都是好哥们儿!

抱了团不能没有团长,群龙无首如何行走江湖!那么谁来做团长呢?既然都是好哥们儿,选谁做团长变得高人一等难免伤感情,于是可以对每个团中所有 gt box 的尺寸取均值作为每个团 gt box 尺寸的代表,这个尺寸就是团长的尺寸,那团长呢?团长当然就是我们的主角——anchor了!

以上做法实质上是在无标签(这里的标签并非指以上谈到的数据集的 gt)的情况下进行分类,也就是所谓的“聚类”,聚类出来的各个质心就对应anchor(实质上是聚类anchor的宽和高,坐标位置无关紧要)。大名鼎鼎的 YOLO 就是使用聚类算法来生成anchor的,算法的基本过程如上所述,本文内容是将这个过程落实到代码实现中进行解析,从而将算法思想转化到代码实现中,希望能让诸位客官有更深刻的理解。


先开个好头:变量初始化

n_anchors代表我们打算设置9个anchor,也就是将数据集的gt box分为9个团,每个anchor分别作为对应的团长。另外说明下,这里gt box的宽、高进行了归一化缩放到了[0,1]范围,因此最终聚类得出的anchor宽、高也是在这个范围内,需要乘以输入图像的宽、高才能对应到输入图像上,这也是以下strides和grid_sizes两个变量存在的原因。

在聚类算法前,我们需要先初始化聚类中心,也叫“质心”,常规的做法是随机初始化,这种做法有可能会影响最终的聚类效果;另外一种做法是在K-Means++算法中使用的方法,它的思想是在初始化的时候让各质心之间彼此相距较远。这里,设置一个标识位plus用于指定使用哪种初始化方法。

最终,当算法执行超过规定的最大迭代次数或者loss已经收敛到指定的水平,就可以结束了。

初始化设置

Pipeline

首先,初始化规定数量的质心,在这里,就是我们的anchor。另外说明下,此处省略了从标签文件解析出gt box坐标的过程,boxes中就是各个gt box,里面有它们对应的宽、高信息。

pipeline(i)

接着就是迭代执行K-Means聚类算法,直至达到一定迭代次数或loss收敛,每次迭代都会得出新的质心,也就是说每次迭代后我们的anchor宽、高都会更新。

pipeline(ii)

最终输出聚类结果。上一节谈到过,聚类出来的anchor宽、高是[0,1]区间内的值,因此这里需要乘上输入图像大小(等于特征图尺寸乘上对应的步长)完成转换。

pipeline(iii)

K-Means++初始化

了解了算法整个pipeline,现在我们来对每个核心部分进行剖析。先来看看如何完成质心的初始化,在这里,就是如何初始化anchor的宽、高。随机初始化的方法在上一节pipeline中已“走光”,无需多言,这里主要来看看K-Means++的初始化方法。

先随机从gt box里挑选一个作为质心。

K-Means++初始化(i)

然后,依次迭代,每次选出一个新的质心,直至规定数量的质心都被选出。

每次挑选质心时,我们需要计算各gt box到当前已有的哪个质心最近,并记录下这个最短距离。这里的距离使用1-IoU表示,这样,gt box与质心的IoU越大,它到质心的距离就越短。

K-Means++初始化(ii)

接着,为每个gt box设置对应的概率区间,代表它们各自被选为下一个质心的概率。概率区间通过累加各gt box到最近质心的距离来构建,由此可知,距离越短则对应的概率区间越窄,对应gt box被选为质心的概率也就越小,也就是说距离当前已有质心越远的gt box越有可能被选为下一个质心,这就是K-Means++初始化的精髓所在。

K-Means++初始化(iii)

最后,产生随机数看落入哪个区间就挑出对应的gt box作为下一个质心即可。

K-Means++初始化(iv)

K-Means聚类

质心的初始化完成了,我们就可以开始真正地进行聚类了。

new_centroids就是本次迭代需要计算出的新质心,初始化它们的宽、高都是0,groups就是各质心对应的“团”,优雅点称作“簇”

K-Means(i)

然后计算出各gt box到哪个质心最近,同时记录下对应的距离。

K-Means(ii)

一次迭代的loss是所有gt box到其最近质心的距离总和,这样,当loss收敛时就代表各个簇都已经相对稳定不再变动了,也就可以没必要再进行迭代了。

计算出gt box距离最近的质心后,将其划分到质心对应的簇,同时将其宽、高累加到新的质心上。

K-Means(iii)

为何前面要将gt box的宽、高累加到所在簇的新质心上?因为新的质心(在这里就是我们的anchor)的宽、高是所在簇中所有gt box的宽、高的均值。

K-Means(iv)

End

使用聚类算法来生成anchor相比于人工预设来说“较为科学”,一定程度上有了自适应的feel,如今许多anchor-base机制下的模型也会使用到它,感兴趣的朋友们可以将其收纳进自己的百宝箱里,作为一个备用手段(当预设anchor效果不理想时)。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,905评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,140评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,791评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,483评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,476评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,516评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,905评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,560评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,778评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,557评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,635评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,338评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,925评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,898评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,142评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,818评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,347评论 2 342