MIT CSAIL在ICLR 2019上发表的一篇优秀论文:
论文链接
本文基于常规的神经网络剪枝工作提出了彩票假设:一个随机初始化的稠密神经网络包含了一个初始化好的子网络(size为原网络的10%~20%),该子网络能够在经过不多于原稠密网络学习迭代次数的前提下达到与原网络相当的训练效果。换言之一个稠密的随机初始化的神经网络就好像一堆可能中奖的彩票,而上述的子网络就是会中奖的那张彩票,文中称之为winning ticket,训练原始网络的过程也就是寻找这个winning ticket。
1、文章分别在全连接网络、卷积网络和实际运用的VGG和Resnet网络上寻找winning ticket,并探讨了如何更高效第寻找winning ticket以及winning ticket表现出来的特点。
2、文章描述了通过训练、剪枝、重置权重参数、再训练、再剪枝多次迭代来寻找winning ticket的方法,并实验证明其寻找winning ticket时优于one-shot的方法。
3、在一定的剪枝比范围内,这种子网络在训练过程中表现出来的收敛速度要优于原网络,在训练后也表现出更高的泛化能力。
4、但是如果对子网络进行重新随机初始化,则不能达到原网络的性能,说明子网络之所以能成为winning ticket,并不仅与其结构相关。
5、dropout虽然使得寻找winning ticket变慢,但是能够提升效果。
6、在VGG和Resnet这样较大的网络上,学习率过大会导致找不到winning ticket,学习率较小时结合warm up找到了winning ticket。
一点感想:值得指出的是,这篇文章探讨的剪枝方法为非结构性剪枝,这种方法在多数通用框架上并不能起到缩小模型体积和加快速度的效果,所以本文实际上是一篇打着模型压缩的幌子探索CNN模型有效性背后的机理的文章。现在大多数的研究都还致力于通过各种trick在各种不同的任务上达到更优的效果,虽然值得肯定,却也略有功利之嫌,而本文回过头来试图通过彩票假设用另一种方式解释神经网络的工作机理,并希望借此能够:
1、提高训练效率;
2、帮助设计更好的网络;
3、提高对神经网络的理论认知。
不失为学术圈的一股清流。
后续:
Uber AI 研究院深度解构 ICLR 2019 最佳论文「彩票假设」
论文链接
Uber AI研究院在彩票假设的基础上进一步深挖,有了一些新发现
1、当将剪枝的mask使用在原始网络上时,即使不经过任何训练也能达到比初始网络更好的预测效果
2、将mask中0位置的权重设置为0比仅仅只停止更新该权重效果要好
3、探究了不同策略的mask的有效性
4、对于再训练来说,保留原始权重的符号更重要。
5、找到性能最佳的[超级掩膜]