【划重点】Long-term Recurrent Convolutional Networks for Visual Recognition and Description

Abstract

基于深度卷积网络的模型统治了近来的图片说明工作；我们研究了递归网络对于序列、图片等任务是否有效。我们描述了一类可端对端训练、适用于大规模图片理解工作的递归卷积网络，并且证明了用于行为识别、图片描述、视频描述的这些模型的值。对比于之前的假定一个固定的图片表示或者运用简单的时间序列来进行序列处的模型，递归卷积模型学习空间和时间的组合表示“倍增”了。当非线性被引入网络状态更新时，学习长时依赖成为可能。可微的递归网络之所以吸引人，是因为它们能直接将变长输入（视频）映射为变长输出（自然语言文本），能够模拟复杂的动态时序；目前能够通过反向传播进行优化。我们的递归序列模型是直接和当前图片卷积网络连接的，能够联合训练以学习动态时序和卷积表征。本文结果显示这样的模型相对于现有模型在用于单独定义或优化的识别、生成任务上，有明显优势。

Introduction

图片、视频识别和描述是计算机视觉中的基本挑战。因为有监督CNN的使用，图片识别任务有了迅猛发展，一系列处理视频的方法也被提出。理论上讲，一个视频模型能允许处理变长的输入序列，也能支持变长的输出，包括全长的语句描述生成（超越了传统的one-versus-all的预测任务）。本文提出Long-term Recurrent Convolutional Networks (LRCNs),一类用于图片识别和描述的结构，结合了卷积层和长时递归，同时端对端可训练。下文将通过特定的视频行为识别、图片描述生成、视频描述任务来实例化网络。

用于视频处理的CNN研究考虑了在原始序列数据上学习3D时空滤波器，帧到帧的表示学习包含了瞬时光流或者在固定窗、视频镜头段上聚合的机遇轨迹的模型。这种模型探索了两个感知时序表示学习的极值：要么学习完全通用的时变权重，要么应用简单的时间池。跟随这一推动了目前深度卷积模型发展的灵感，我们提出了视频识别和描述模型，既在时间维度上做到深度，也有潜在变量的时间递归。RNN模型在“时间上很深”——准确说当他们展开时——形成了隐式的组合描述。在时域上，这种深模型先于现有文献中的空域卷积模型。

RNN在感知应用上已经有数十年的研究，也有很多不同结论。简单RNN模型一个明显限制是其在时间上严格整合状态信息，也就是“梯度消失”效应：在实践中，通过一个长时间间隔去反向传播误差信号的能力变得逐渐困难。LSTM单元，也是一个递归模块，能实现长时学习。LSTM单元有隐状态增强和非线性机制，通过利用一个简单的学习过的门限函数，可以不修改、不更新、不复位地对状态进行传播。LSTM近来也被证明可用于大规模的语音识别、语言翻译模型。

本文展示了有递归单元的卷积网络普遍适用于视觉时间序列模型，同时论证了在训练样本充足并且可用于学习和改进模型的前提下，LSTM风格的RNN 在已被采用的静态、平面的视觉任中，能提供显著的性能提升。尤其是，本文表明了LSTM类型的网络在传统食品行为上能提高识别率，能够在自然语言描述上从图像像素级到语义级进行端到端的优化映射。本文同时也展示了这些模型能从传统视觉模型中得来的中间视觉描述去提升描述子的生产。

本文通过3个实验设置去实例化提出来的模型。第一，传统卷积模型直接和深LSTM网络向量，我们能够训练捕捉时态状态依赖项的视频识别模型。然而现有标记的视频行为数据集可能没有特定的复杂行为的时序动态，但是我们仍对传统benchmark进行了提升。

第二，我们研究了一个从图像到语义的端对端可训练的映射。机器翻译最近取得了很多成果，这类模型是基于LSTM的编码-解码对。我们提出了这个模型的多模型模拟，描述了一个结构，该结构利用图片的ConvNet去编码一个深度状态向量，一个LSTM解码该向量为一个自然语言字符串。最终模型能够用于大规模图片和文本数据集的端对端训练，即使是不完全训练，对比于现有方法，也能得到一个较好的生成结果。

第三，本文显示，LSTM解码器能直接从传统的预测高级标签的计算机视觉方法上加以运用，例如语义视频角色数组预测。这类模型在结构和性能上优于原来的基于统计机器翻译的方法。

本文方法在Caffe上得到实现，网址是http://jeffdonahue.com/lrcn/

2 Background

传统循环神经网络通过将输入序列映射为隐状态-隐状态映射为输出来对动态时序进行建模，

公式如下：

尽管RNN已被证明在语音识别、文本生成任务上具有出色的表现，但在学习长时的动态过程中，仍然是难以训练的，部分原因是"梯度消失"或者"梯度爆炸"，在梯度向循环网络反向传播的过程中，每一个都对应特定的时间步长。LSTM通过集合记忆单元解决这一问题，记忆单元能够准确指导网络什么时候"遗忘"之前的隐状态、什么时候更新隐状态信息。鉴于此，提出了很多记忆单元中的隐藏单元的连接方式。本文使用一个简化的LSTM单元，

LSTM在语音识别和机器翻译等任务都取得了一定的成果，和CNN类似，LSTM也可以进行端对端的fine-tune。在语音识别中，消除了通过训练一个将输入映射为文本的映射深度双向LSTM的过程中，对于复杂多步pipeline的需要。即使没有语言模型或者拼写词典，模型也能生成令人信服的文本翻译。源语言中的语句被一个编码LSTM映射为隐状态，再通过解码LSTM将隐状态映射为目标语言的一个序列。这种“编码-解码”的方式能使任意长度的输入序列映射为不同长度的输出序列。“流到流”的结构对于机器翻译来说，规避了对语言模型的需要。

LSTM对于视觉任务中序列数据建模有两个方面。第一是对于目前被继承的视觉系统，LSTM模型能直接进行端到端的优化。第二，LSTM不受固定长度的输入或输出的限制，允许对变长的序列数据进行简单建模，例如文本或者视频。

3 LONG-TERM RECURRENT CONVOLUTIONAL NETWORK (LRCN) MODEL

最后编辑于：2017.12.11 11:39:55

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342

【划重点】Long-term Recurrent Convolutional Networks for Visual Recognition and Description

推荐阅读更多精彩内容