本篇论文主要是从事于微表情研究,介绍人物:王甦菁教授,被许多人称为“中国版霍金”。他的科研成果也得到了国际学术界的认可,成为2011国际生物特征识别大会博士研究生论坛在全球邀请的10位有培养前途的博士研究生之一。吉林大学计算机科学与技术学院2008级博士研究生,中国科学院心理研究所副研究员。
论文题目:CAS(ME)2: A Database for Spontaneous Macro-expression and Micro-expression Spotting and Recognition
本次论文主要贡献:
- 在同一段视频中,首次面向公众提供大表情和微表情;
- 所有的大表情和微表情都是来自于同一测试对象,并且在相同实验条件下完成的;
- 大表情和微表情之间的动作单元(AU)是不同的,有利于测试;
- 该数据库结合了FACS(AU),启发视频的情感类型以及参与者针对每个表达样本的自我报告的情感。
同样,该数据集也是采用LBP-TOP提取特征,我们知道,单张的图像只有X, Y两个方向,而一个视频或者图像序列除了X,Y 方向之外,还有一个沿着时间轴 T 的方向, 而 X-Y, X-T 和 Y-T 三个方向是相互正交的。可以看看如下的图:
在此LBP-TOP就不多介绍,想了解更多可以看前一篇论文。
此文值得注意的是如何在一段视频中如何提取到相应表情帧。
已发布的LBP方法来计算可变间隔内视频帧基于外观的特征的差异,并自动估计视频中运动的斑点。
首先,将一个面部图片划分成6*6的片段区域,并用LBP计算每一个区域的直方图。
- AFF(verage feature frame): 值视频中头帧图像(HF)和尾帧图像(TF)的图像特征平均值
- CF(currently analyzed frame): 当前所处视频帧
- TF(tail frame): 位于CF后面的第K帧图片
- HF(head frame): 位于CF前面的第K帧图片
CF评估视频的所有n帧,除了视频的第一帧和最后一帧外。每帧的36对差值按降序排列.Fi定义为第i个M个最大差值的平均值 所有n帧中的第6帧,并且在此实验中将M设置为12。 为避免噪音干扰,运用下面的公式,将Fi换成Ci。
阈值用于获得代表视频中最大面部运动帧的峰值,阈值T计算方法,并且p的取值范围[0, 1]。
在视频中能够有效地找出相应peak表情帧出来。
当然,不一定非要6 * 6划分区域,改论文中也同时试验了其它划分区域方法。其中,k = 48 , block: 8 * 8 其得到的实验效果最好。
论文如果有理解错误地方,欢迎大佬指正。