【深度学习】视频行为检测&分类方案整理

主流几类方案

image

Two-stream

[2014] Large-scale Video Classification with Convolutional Neural Networks

Fusion Method

实验了不同的卷积神经网络表示出视频的时间信息

image

Multi-resolution CNN

image

使用两种不同的分辨率的帧分别输入到两个CNN中，在最后的两个全连接层将两个CNN统一起来
两个流分别是低分辨率的内容流和采用每帧中间部分的高分辨率流

Result

image

多帧卷积比单帧卷积好，多尺度比单尺度好

[2014] Two-Stream Convolutional Networks for Action Recognition in Videos

Multi-stream CNN

image

提出了two-stream结构的CNN，由空间和时间两个维度的网络组成。
一个是普通的single frame的CNN，在ImageNet的数据上pre-train，然后在视频数据上调整最后一层。
另一个CNN网络，使用多帧的密集光流场作为训练输入，可以提取动作的信息。
利用了多任务训练的方法把两个数据集联合起来。把两个softmax层的输出融合：一种是平均层，一种是训练一个以这些softmax输出作为特征的SVM。

光流场叠加

计算每两帧间的光流，简单地叠加一起。追踪L+1帧，产生L帧的光流，把光流分解成X，Y两个方向的光流，这时会有2L个通道。

计算光流是预处理后保存的，因为这会影响网络的速度。

轨迹追踪光流叠加 通过光流来追踪它在视频中的轨迹点，从而计算它在每一帧的相应位置的光流向量

减去平均光流 消去摄像头运动引起的相对运动

Result

UCF-101最高准确率87%
[图片上传失败...(image-ffc236-1520906810618)]
[图片上传失败...(image-dff411-1520906810618)]
光流叠加帧数越多准确率越高

[2016] Convolutional Two-Stream Network Fusion for Video Action Recognition

github：https://github.com/feichtenhofer/twostreamfusion
homepage：http://www.robots.ox.ac.uk/~vgg/software/two_stream_action/

在two stream network的基础上，利用两个独立的CNN网络进行了spatial以及temporal的融合。将单帧的图像信息和帧与帧之间的变化信息进行融合，单帧的图像可以形成对空间的描述，而通过光流法等方法形成的时间的描述（差分），从而达到时间和空间互补的目的。multi-task learning克服数据量不足的问题（CNN最后一层连到多个softmax的层上对应不同的数据集）

image

对于一大段时间t=1….T，把这段时间内的所有特征图（x1,…,xT）综合起来，进行一次3D时间卷积，得到融合后的特征图输出

image
左边是单纯在某一层融合，右边是融合之后还保留时间网络，在最后再把结果融合一次。论文的实验表明，后者的准确率要稍高。
融合方法：Sum、Max、Concatenation、Conv、Bilinear

[2016] Spatiotemporal Residual Networks for Video Action Recognition

github: https://feichtenhofer.github.io/

依然是使用了两个流，但是名字不是取为空间流和时间流，而是运动流（motion stream）和外观流（appearance stream），但是本质不变，运动流接收的输入依然是堆叠的多帧光流灰度图片，为什么是两幅，是因为光流计算后的结果分为x方向的光流和y方向的光流，真正计算的时候也是在同一位置取出x位置L=10帧做计算，y位置L=10做计算，而外观流和原来的空间流一致，接收的输入都是RGB图片，但是这里使用的双流的两个流之间是有数据交换的，而不是像TSN网络一样在最后的得分进行融合
使用的网络是残差网络ResNet

image

image

[2017] Hidden Two-Stream Convolutional Networks for Action Recognition

只需要原始视频帧作为输入，直接获取运动信息预测操作类，而不需要计算光流
计算速度比传统two stream快十倍

image

实验效果：UCF101-93.1%，HMDB51-66.8%

3D-Fused Two Stream

[2016] Temporal segment network:towards good practices for deep action recognition

github：https://github.com/yjxiong/temporal-segment-networks
homepage：https://www.researchgate.net/publication/316779776_Temporal_Segment_Networks_for_Action_Recognition_in_Videos

把稀疏时间采样策略和基于视频的监督相结合

Temporal Segment Network

image

空间stream卷积神经网络作用在single RGB images
时间stream卷积神经网络以stacked optical flow field 作为输入
two-stream卷积神经网络的4种输入形式：RGB image，stacked RGB difference，stacked optical flow field，stacked warped optical flow field

image

UCF101上准确率达到93.5%

LSTM

[2015] Beyond Short Snippets: Deep Networks for Video Classification

网络结构

two stream: 每秒取一帧彩色图像，连续多帧计算光流图获取运动信息

image

Feature Pooling

feature pooling networks使用CNN，组合帧间信息采用不同的pooling层

全链接和平均池化由于大量梯度计算导致较低的学习效率

image

[Conv Pooling] Pooling over the final convolutional layer across the video’s frames. The spatial information in the output of the convolutional layer is preserved through a max operation over the time domain.
[Late Pooling] First passes convolutional features through two fc layers before applying the max-pooling layer.
[Slow Pooling] Pooling is first applied over 10-frames of convolutional features with stride 5. In the second stage, a single max-pooling layer combines the outputs of all fc layers.
[Local Pooling] Local Pooling only contains a single stage of max-pooling after the convolutional layers.
[Time-Domain Convolution] It contains an extra time-domain convolutional layer before feature pooling across frames.

LSTM

image

Deep Video LSTM takes input the output from the final CNN layer at each consecutive video frame.
CNN outputs are processed forward through time and upwards
through five layers of stacked LSTMs. A softmax layer predicts
the class at each time step.
The parameters of the convolutional networks (pink) and softmax classifier (orange) are shared across time steps.

Result

LSTM with 30 Frame Unroll (Optical Flow + Im- age Frames)在UCF-101准确率88.6%

Conv Pooling最好， Late Pooling最差

时间序列做池化保持空间信息很重要，先池化组合各帧再全连接

Time-Domain Convolution效果不佳，在高层级的特征执行一次时间序列卷积对学习时间相关性作用不大

光流图单独使用效果更差

30-frame Conv-Pooling models，降低帧率可以提高准确率

[2015] Fusing Multi-Stream Deep Networks for Video Classification

CNN提取特征，包括rgb图、光流图和语音频谱图，然后经过lstm，最后融合

image

UCF101上准确率达到92.6%

[2016] Action Recognition using Visual Attention

home page：http://shikharsharma.com/projects/action-recognition-attention/

创新之处在于将attention mechanism的思想引入actionrecognition中，思路算是比较简单，但是具有一定的启发意义。

人在看东西的时候，目光沿感兴趣的地方移动，甚至仔细盯着部分细节看，然后再得到结论。Attention就是在网络中加入关注区域的移动、缩放机制，连续部分信息的序列化输入。采用attention使用时间很深的lstm模型，学习视频的关键运动部位。

image

文章给出的多个数据集上的测试结果来看，效果一般，远不如双流法

[2016] RNN Fisher Vectors for Action Recognition and Image Annotation

homepage：http://www.eccv2016.org/files/posters/P-4A-30.pdf

文章典型的特征提取，分类思路文章采用卷积网络提取特征之后进过pca降维，然后FisherVector编码扔给RNN再pca降维，最后svm分类。

Ucf101上实验结果到了94%

image

[2016] A Key Volume Mining Deep Framework for Action Recognition

key volume的自动识别,关键帧学习提取，再在关键帧上建立CNN模型

在训练分类器的同时，挑选 key volume；并用挑出来的 key volume 更新分类器的参数

image

参考资料

Multiple Instance Learning

CVPR 2016｜商汤科技论文解析：行为识别与定位

实验效果：UCF101-93.1%，HMDB51-63.3%

C3D

[2015] Learning Spatiotemporal Features with 3D Convolutional Networks

homepage：http://vlg.cs.dartmouth.edu/c3d/

github：https://github.com/facebook/C3D

image

将视频分成多个包含16帧的片段作为网络的输入。第一个池化层d=1，是为了保证时间域的信息不要过早地被融合，接下来的池化层的d=2。有所卷积层的卷积核大小为3x3x3，相对其他尺寸的卷积核，达到了精度最优，计算性能最佳。

[2017] Deep Temporal Linear Encoding Networks

“Temporal Linear Encoding Layer” 时序线性编码层，主要对视频中不同位置的特征进行融合编码。特征提取则方法可用two stream以及C3D网络

image

aggregates K temporal feature maps to output an encoded feature map X.

Temporal Linear Encoding

X = S1 �* S2 *� . . . SK, X ∈ R^h×w×c, where *� is an
aggregation operator
y = EncodingMethod(X), y ∈ R^d, where d denotes
the encoded feature dimensions

aggregation operator

Element-wise Average of Segments:
X = (S1 ⊕ S2 ⊕ . . . ⊕ SK)/K
Element-wise Maximum of Segments:
X = max{S1 ⊕ S2 ⊕ . . . ⊕ SK}
Element-wise Multiplication of Segments:
X = S1 * S2 * . . . * SK best

encoding method

Bilinear Models best
Fully connected pooling
deep fisher encoding

实验效果：UCF101-95.6%，HMDB51-71.1%

[2018] Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

homepage：https://deepmind.com/research/publications/quo-vadis-action-recognition-new-model-and-kinetics-dataset/

image

网络结构

卷积核和pooling的核由二维扩展到三维
大的数据视频数据集上训练
用2D的ImageNet模型做预训练以及参数展开分配,迁移到UCF101，HMDB51，识别结果好

Result

image

实验效果：UCF101-98.0%，HMDB51-80.7%

最后编辑于：2018.03.13 10:07:01

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,393评论 5赞 467
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,790评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,391评论 0赞 330
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,703评论 1赞 270
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,613评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,003评论 1赞 275
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,507评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,158评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,300评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,256评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,274评论 1赞 328
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,984评论 3赞 316
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,569评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,662评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,899评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,268评论 2赞 345
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,840评论 2赞 339

【深度学习】视频行为检测&分类方案整理

主流几类方案

Two-stream

[2014] Large-scale Video Classification with Convolutional Neural Networks

Fusion Method

Multi-resolution CNN

Result

[2014] Two-Stream Convolutional Networks for Action Recognition in Videos

Multi-stream CNN

光流场叠加

Result

[2016] Convolutional Two-Stream Network Fusion for Video Action Recognition

[2016] Spatiotemporal Residual Networks for Video Action Recognition

[2017] Hidden Two-Stream Convolutional Networks for Action Recognition

3D-Fused Two Stream

[2016] Temporal segment network:towards good practices for deep action recognition

Temporal Segment Network

LSTM

[2015] Beyond Short Snippets: Deep Networks for Video Classification

网络结构

Feature Pooling

LSTM

Result

[2015] Fusing Multi-Stream Deep Networks for Video Classification

[2016] Action Recognition using Visual Attention

[2016] RNN Fisher Vectors for Action Recognition and Image Annotation

[2016] A Key Volume Mining Deep Framework for Action Recognition

参考资料

C3D

[2015] Learning Spatiotemporal Features with 3D Convolutional Networks

[2017] Deep Temporal Linear Encoding Networks

Temporal Linear Encoding

aggregation operator

encoding method

[2018] Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

网络结构

Result

推荐阅读更多精彩内容