Abstract
基于深度卷积网络的模型统治了近来的图片说明工作;我们研究了递归网络对于序列、图片等任务是否有效。我们描述了一类可端对端训练、适用于大规模图片理解工作的递归卷积网络,并且证明了用于行为识别、图片描述、视频描述的这些模型的值。对比于之前的假定一个固定的图片表示或者运用简单的时间序列来进行序列处的模型,递归卷积模型学习空间和时间的组合表示“倍增”了。当非线性被引入网络状态更新时,学习长时依赖成为可能。可微的递归网络之所以吸引人,是因为它们能直接将变长输入(视频)映射为变长输出(自然语言文本),能够模拟复杂的动态时序;目前能够通过反向传播进行优化。我们的递归序列模型是直接和当前图片卷积网络连接的,能够联合训练以学习动态时序和卷积表征。本文结果显示这样的模型相对于现有模型在用于单独定义或优化的识别、生成任务上,有明显优势。
Introduction
图片、视频识别和描述是计算机视觉中的基本挑战。因为有监督CNN的使用,图片识别任务有了迅猛发展,一系列处理视频的方法也被提出。理论上讲,一个视频模型能允许处理变长的输入序列,也能支持变长的输出,包括全长的语句描述生成(超越了传统的one-versus-all的预测任务)。本文提出Long-term Recurrent Convolutional Networks (LRCNs),一类用于图片识别和描述的结构,结合了卷积层和长时递归,同时端对端可训练。下文将通过特定的视频行为识别、图片描述生成、视频描述任务来实例化网络。
用于视频处理的CNN研究考虑了在原始序列数据上学习3D时空滤波器,帧到帧的表示学习包含了瞬时光流或者在固定窗、视频镜头段上聚合的机遇轨迹的模型。这种模型探索了两个感知时序表示学习的极值:要么学习完全通用的时变权重,要么应用简单的时间池。跟随这一推动了目前深度卷积模型发展的灵感,我们提出了视频识别和描述模型,既在时间维度上做到深度,也有潜在变量的时间递归。RNN模型在“时间上很深”——准确说当他们展开时——形成了隐式的组合描述。在时域上,这种深模型先于现有文献中的空域卷积模型。
RNN在感知应用上已经有数十年的研究,也有很多不同结论。简单RNN模型一个明显限制是其在时间上严格整合状态信息,也就是“梯度消失”效应:在实践中,通过一个长时间间隔去反向传播误差信号的能力变得逐渐困难。LSTM单元,也是一个递归模块,能实现长时学习。LSTM单元有隐状态增强和非线性机制,通过利用一个简单的学习过的门限函数,可以不修改、不更新、不复位地对状态进行传播。LSTM近来也被证明可用于大规模的语音识别、语言翻译模型。
本文展示了有递归单元的卷积网络普遍适用于视觉时间序列模型,同时论证了在训练样本充足并且可用于学习和改进模型的前提下,LSTM风格的RNN 在已被采用的静态、平面的视觉任中,能提供显著的性能提升。尤其是,本文表明了LSTM类型的网络在传统食品行为上能提高识别率,能够在自然语言描述上从图像像素级到语义级进行端到端的优化映射。本文同时也展示了这些模型能从传统视觉模型中得来的中间视觉描述去提升描述子的生产。
本文通过3个实验设置去实例化提出来的模型。第一,传统卷积模型直接和深LSTM网络向量,我们能够训练捕捉时态状态依赖项的视频识别模型。然而现有标记的视频行为数据集可能没有特定的复杂行为的时序动态,但是我们仍对传统benchmark进行了提升。
第二,我们研究了一个从图像到语义的端对端可训练的映射。机器翻译最近取得了很多成果,这类模型是基于LSTM的编码-解码对。我们提出了这个模型的多模型模拟,描述了一个结构,该结构利用图片的ConvNet去编码一个深度状态向量,一个LSTM解码该向量为一个自然语言字符串。最终模型能够用于大规模图片和文本数据集的端对端训练,即使是不完全训练,对比于现有方法,也能得到一个较好的生成结果。
第三,本文显示,LSTM解码器能直接从传统的预测高级标签的计算机视觉方法上加以运用,例如语义视频角色数组预测。这类模型在结构和性能上优于原来的基于统计机器翻译的方法。
本文方法在Caffe上得到实现,网址是http://jeffdonahue.com/lrcn/
2 Background
传统循环神经网络通过将输入序列映射为隐状态-隐状态映射为输出来对动态时序进行建模,
公式如下:
尽管RNN已被证明在语音识别、文本生成任务上具有出色的表现,但在学习长时的动态过程中,仍然是难以训练的,部分原因是"梯度消失"或者"梯度爆炸",在梯度向循环网络反向传播的过程中,每一个都对应特定的时间步长。LSTM通过集合记忆单元解决这一问题,记忆单元能够准确指导网络什么时候"遗忘"之前的隐状态、什么时候更新隐状态信息。鉴于此,提出了很多记忆单元中的隐藏单元的连接方式。本文使用一个简化的LSTM单元,
LSTM在语音识别和机器翻译等任务都取得了一定的成果,和CNN类似,LSTM也可以进行端对端的fine-tune。在语音识别中,消除了通过训练一个将输入映射为文本的映射深度双向LSTM的过程中,对于复杂多步pipeline的需要。即使没有语言模型或者拼写词典,模型也能生成令人信服的文本翻译。源语言中的语句被一个编码LSTM映射为隐状态,再通过解码LSTM将隐状态映射为目标语言的一个序列。这种“编码-解码”的方式能使任意长度的输入序列映射为不同长度的输出序列。“流到流”的结构对于机器翻译来说,规避了对语言模型的需要。
LSTM对于视觉任务中序列数据建模有两个方面。第一是对于目前被继承的视觉系统,LSTM模型能直接进行端到端的优化。第二,LSTM不受固定长度的输入或输出的限制,允许对变长的序列数据进行简单建模,例如文本或者视频。
3 LONG-TERM RECURRENT CONVOLUTIONAL NETWORK (LRCN) MODEL