文章来源于微信公众号(茗创科技),欢迎有兴趣的朋友搜索关注。
情感在我们的日常生活中扮演着重要的角色,不仅体现在人际交往中,在决策过程中,也在我们对周围世界的感知中。由于最近学术界非常关注人机交互尤其是情感交互的重要性,那么帮助计算机有效识别人类的情感是非常迫切的。一般来说情感识别可以通过多种方法实现,如主观自我报告、自主和神经生理学测量。近年来,脑电图(EEG)技术因为它的简单、廉价、便携、易于使用的情感识别解决方案等优点,得到了研究人员的广泛关注。因此,本文回顾了2009 - 2016年的神经生理学研究,并综述了现有的基于EEG信号的情感识别文献。通过比较前人文献来分析情感识别过程中涉及的主要方面,例如被试、特征提取、分类器。通过分析,研究者们提出了一套研究人员必须遵循的良好实践建议,以实现可重复、可复制、验证良好和高质量的结果。希望本文能够启发同样使用EEG技术来研究情感识别的团队。
引 言
情感在人类认知中扮演着重要的角色,是人类日常生活的基础,尤其是在理性决策、感知、人际交往和人类智力方面。然而情感却在很大程度上被忽视了,尤其是在人机交互(HCI)领域。
情感计算通过将技术和情感融合到人机交互中来填补这一空白。它的目标是通过测量用户的情绪状态来模拟人与电脑之间的情感互动。通过主观体验(感觉)、内在情感(生理信号)、外在表情(听觉、视觉信号)等,可以看出内心的情绪状态。虽然主观自我报告可以提供有价值的信息,但在有效性和确证方面存在问题。因为参与者可能不会准确地回答他们的感受,而是按照他们认为其他人会回答的那样回答。
生理信号有助于更好地理解参与者表达的潜在情感反应,这些与来自中央和自主神经系统的多通道记录相对应。中枢神经系统由大脑和脊髓组成,自主神经系统是无意识活动的控制系统,调节心率、瞳孔反应、性唤起等身体功能。通常用来测量情绪的信号是皮肤电反应(GSR),它随着人的兴奋程度线性增加;肌电图(EMG)(肌肉紧张的频率),与负性情绪相关;心率(HR),随着恐惧等消极情绪的增加而增加;呼吸频率(RR)(呼吸的深度和速度),当愤怒等情绪更强烈时,呼吸频率就会变得不规则。在大脑上记录的测量数据也使我们能够观察到人们感受到的情绪。
功能神经成像技术已被广泛使用,如脑电图(EEG),功能磁共振成像(fMRI)和正电子发射断层扫描技术(PET)。尽管脑电图的空间分辨率很低,而且需要在头部的不同位置放置许多电极,但它提供了很高的时间分辨率,允许研究人员研究情绪刺激时的相位变化。此外,脑电图因为其无创、快速、廉价等优点,使其成为研究大脑对情绪刺激的反应的首选方法。如今,由于其可穿戴性、价格、便携性和易用性,新的无线脑电图设备正在进入市场。因此,现在可以在娱乐、电子学习、虚拟世界或电子医疗应用程序等不同领域使用基于脑电图的情感识别技术。它可以用于许多目的,如即时通讯、在线游戏、协助治疗师和心理学家工作。
本文综述了基于脑电信号的情绪识别方法的研究进展。研究分析是基于两个不同的角度进行的:一个比较笼统,即研究者提出了一组建议,以警示在这一领域的研究中可能出现的常见问题;另一个更具体地涵盖了从脑电图信号识别情绪的不同步骤。后者侧重于参与者的数量和性别,识别的情绪集,用于诱发他们的刺激(图像、视频等),使用的脑电图设备和电极的位置,脑电图特征提取和提取这些特征的方法,最后使用的分类器等方面的具体建议。
方 法
研究者们在GoogleScholar、Pubmed、和IEEE Xplore网站上进行查询,收集调查所需的论文,关键词为EEG+Emotions+Recognition和EEG+Emotions+ Identification。然后,仔细地甄别了2009年至2016年发表的基于脑电图的情绪识别文献。第一次筛选结果是155篇论文,按作者分组,然后删除那些增量贡献的论文。这就产生了一个新的142篇论文的列表。
在接下来的步骤中,通过被引次数多少来分析论文的质量。研究者们选择被引次数大于该年被引次数中位数的论文。在142篇论文中,只有88篇符合该标准。然而考虑到少量被引可能不足以判定一篇论文的好坏,因此分析了低于阈值的每一篇论文的内容和新颖性。最终的论文名单由99篇论文组成。
本文从两个角度进行了进一步的分析。首先,根据Brouwer等人(2015)定义的6个建议(14个关键点)对所有的论文进行了回顾。其次,对99篇论文中的一个子集进行了更具体的分析。这个子集包含了至少符合14个关键点中的9个。
背景信息
3.1情绪
情绪是一种复杂的心理状态,它包括三个不同的组成部分:主观体验、生理反应和行为或表达反应。情绪被描述为对机体有意义的事件(外部或内部)的离散和一致的反应。它们持续时间很短,与一系列协调的反应相对应,这些反应可能包括语言、行为、生理和神经机制。在情感神经科学中,情感概念可以与类似的构念如感觉、情绪和影响区分开来。感觉Feelings可以被看作是情绪的一种主观表征。心境Moods是一种弥散的情感状态,通常比情绪持续的时间长得多,也通常没有情绪那么强烈。 最后,情感是一个包罗万象的术语,用来描述情绪、感觉和情绪等主题(不加以区分)。
情绪表征有两种不同的观点。第一种观点认为基本情绪是通过自然选择进化而来的。Plutchik提出了八种基本情绪:愤怒、恐惧、悲伤、厌恶、惊讶、好奇、接受和快乐。所有其他情绪都可以由这些基本情绪构成(例如,失望是由惊讶和悲伤组成的)。 Ekman遵循达尔文的传统,他的工作基于面部表情和情绪之间的关系,这些情绪来自于许多普遍的基本情绪:愤怒、厌恶、恐惧、快乐、悲伤和惊讶。第二种观点是基于认知,认为情绪可以被映射到到效价Valence、唤醒度Arousal和优势度Dominance (VAD)三个维度。效价从非常积极的感觉到非常消极的感觉(或从不快乐到快乐);唤醒度从困倦状态变为兴奋状态;最后,优势度对应于情绪强度。最常用的模型是情绪的Circumplex Model模型,它只考虑效价和唤醒度。
图1.大脑皮层分为额叶、颞叶、顶叶和枕叶。
3.2 脑电图(EEG)
人脑最大的部分是皮层,分为额叶、颞叶、顶叶和枕叶(见图1)。额叶负责意识思维。颞叶负责嗅觉和听觉,并处理复杂的刺激,如面孔和场景。顶叶负责整合来自不同感官的感觉信息,以及对物体的操作。最后,枕叶负责视觉。脑电图是一种医学成像技术,读取由大脑结构产生的头皮电活动,也就是说,它测量大脑神经元内离子电流流动造成的电压波动。一个典型的成人脑电图信号,当从头皮测量时,约为10-100 uV。这些信号在头皮分为特定范围在某些加工状态更加突出,即δ(1 – 4Hz),θ(4 – 7Hz),α(8-13 Hz),β(13-30 Hz)和γ(>30 Hz) (见图2)。开始和结束的频段在不同作者之间的会有差异。
图2.五种脑电波:δ, θ, α, β,和γ。
Delta波与潜意识有关,在深度无梦睡眠时发生。Delta波活动都与潜意识有关,例如与睡眠和做梦等活动。Alpha波通常与放松的精神状态有关,但它是有意识的,在顶叶和枕叶上更明显。高α激活与大脑失活有关。Beta波与活跃的精神状态有关,在额叶皮层和其他区域在激烈的集中精神活动中更为突出。最后,伽马波与超脑活动有关。
3.2.1 EEG电极位置
为了产生可复制的设置,颅骨上有标准化的电极位置集,如国际10/20系统(IS)(见图3)。这个系统是基于电极的位置和大脑皮层下方区域之间的关系。数字10和20表示相邻电极之间的距离(颅骨前后或左右总距离的10%或20%)。可以利用现有的空白处来增加额外的电极点。每个位置都有一个字母来标识叶和一个数字来标识半球的位置。F代表额叶,T代表颞叶,C代表中央(虽然没有中央叶,但C字母用于识别),P代表顶叶,O代表枕叶。Z(零)是指置于中线上的电极。偶数表示右脑的电极位置,而奇数表示左脑的电极位置。四个解剖标志用于电极的正确位置:鼻点nasion (前额和鼻子之间的点),小点inion (从头部后部开始的头骨最低点,由一个突出的肿块表示),和耳朵前面的耳前点pre auricular points。
图3.国际10/20系统。
电极可以是单极的或双极的。前一个记录电位差,与连接耳垂或乳突的中性电极相比较。后一个显示了两对电极之间的电位差。高密度电极的使用会产生多种干扰脑电图记录的噪声源,如活动部位附近的肌肉活动、眼球运动和眨眼。眼动伪影会对大脑额部产生严重的影响,特别是常用于研究情绪反应的额中部(F3 和F4)。
3.2.2 EEG范式
为了了解如何评估脑电活动中的变化,研究者们提出了最常用的范式:感觉诱发电位(SEP)、事件相关电位(ERP)和事件相关去同步化/同步化(ERD/ERS)。
诱发电位对应于刺激出现后所记录的电位信号。基于不同的诱发方法,有三种类型:听觉诱发电位(AEP)、视觉诱发电位(VEP)和体感诱发电位(SsEP)。AEP是由耳机发出的滴答声或音调刺激引起的,VEP是由闪烁的光或监视器上图案的变化引起的(稳态视觉诱发电位(SSVEP),如果它是由周期性刺激引起的),而SsEP是由周围神经的电刺激引起的。
ERP具有很高的时间分辨率,可以测量对短刺激的即时反应。它们通常以刺激后特定毫秒间隔的正电位和负电位的潜伏期和振幅来测量。ERP常见成分顺序如下:P100、N100、N200、P200、P300和Slow Cortical Potential (SCP)。N100的特征是电压负偏转,刺激和反应之间的延迟(潜伏期)在刺激后100毫秒,而P100是正偏转。N200和P200类似于N100和P100,延迟约为200毫秒而不是100毫秒(在150到275毫秒之间变化)。P300被认为反映了参与刺激评价或分类的过程,其特征是电压正向偏转,潜伏期约为250-500毫秒。SCP的发生时间从300毫秒到几秒不等。
ERD/ERS分析是以高时间分辨率评估指定频带内的功率变化。通过在规定的频带范围内测量功率的快速变化,以评估在刺激呈现后的毫秒内出现的反应。ERS对应的是在频段内的功率上升,ERD对应的是在频段内的功率下降。该指标适合策略情感交流发生时的神经反应。
3.3大脑中的情绪
在过去的十年中,大量的神经心理学研究报道了脑电图信号与情绪之间的相关性。大脑中有两个与情绪活动相关的主要区域:杏仁核(靠近海马体,位于颞叶的额部);前额叶皮层(覆盖额叶的一部分)。虽然对杏仁核可能的偏侧化还没有共识,但它的激活似乎与消极情绪的关系更大,而不是积极情绪。
α能量的变化和大脑半球之间的不对称性与情绪有关。相对的右额叶激活与退缩刺激或负面情绪,如恐惧或厌恶有关。相对较大的左额叶激活与接近刺激或积极的情绪,如快乐或幸福有关。因此,额叶脑电活动的不对称可能反映了效价的变化。β频带也与效价有关。效价识别表现为额叶和顶叶的α带不对称和γ带的颞叶不对称,唤醒识别表现为前额叶α带不对称和颞叶γ带不对称。γ带的变化与情绪快乐和悲伤有关,颞叶不同部位α波的减少也与此有关(左侧减少为悲伤,右侧减少为快乐)。
最后,短潜伏期(N100和P100)到中潜伏期(N200和P200)的ERP成分已被证明与效价相关,而中潜伏期(P300和SCP)的成分已被证明与唤醒相关。
先前的研究表明,男性和女性对情绪刺激的处理方式不同。他们认为,男性依靠回忆过去的情绪经历来评估当前的情绪经历,而女性似乎更容易调动情绪系统。也有一些证据表明,当情绪被唤起时,女性的脑电图模式更相似,而男性的脑电图模式有更多的个体差异。
总之,本研究认为额叶和顶叶对情绪状态的信息最为丰富,而α波、γ波和β波似乎具有最强的辨别能力。与性别相关的研究结果与女性比男性更情绪化的普遍看法一致,这表明可能与性别相关的神经对情绪刺激产生反应。
Brouwer的建议
通过脑电图(EEG)等神经生理信号识别情绪,以及开发利用这些信息的应用程序,需要来自不同领域的知识。例如,研究人员需要在工程、实验设计、目标用户群体的知识、数学建模、心理生理学、传感器技术、信号处理和系统设计方面的专业知识。因此,这是一个高度跨学科的领域,很难执行,也很难分析(无论是专家还是读者)。事实上,本节列举的常见陷阱主要出现在连接实验心理学、人为因素、机器学习和神经生理学的跨学科领域(见图4)。实验心理学提供了评估心理状态的方法。创建和测试应用程序需要人为因素。机器学习提供了先进的分类算法。神经生理学提供关于神经系统功能和如何测量的知识。
图4.概述六项建议中的五项与其主要基础领域有关的内容。
Brouwer等人提出了六条建议(见表1),以避免与反映认知或情感状态的神经生理信号的使用相关的常见陷阱。这些建议与心理概念的定义、期望参与兴趣状态的神经生理过程、混杂因素、通过分类分析(尽管不是故意的)对结果进行欺骗、对成功状态估计原因的洞察,以及最后,神经生理学测量在应用环境中的附加价值。它们可能有助于改进新研究的设计和执行,也可以作为阅读和评估研究的清单。因此,研究者根据这些建议分析自2009年到2016年的文献(见表1),也详细描述每一个建议和评判每个研究是否遵守该建议的关键点。
建议:在使用反映认知或情感状态的神经生理信号时避免常见的陷阱
4.1 R1 -定义兴趣心理状态和背景真相信息
一个给定的概念可能在学界中有多种解释(例如,有许多不同的情感子集,尽管它们都归属于情感概念之下)。为了防止混淆,重要的是要澄清作者研究的心理状态是什么,以及讨论它是如何在以前的研究中定义的。然而,用什么方法去研究的心理状态也非常重要,这涉及到了心理状态的量化考察 (例如,行为研究考虑按键准确性、主观测评考虑对量表的作答和个人真实情况的报告) 。
正如我们在表2中看到的,大约74%的工作满足第一个建议,也就是说,它们满足这个建议的两个关键点。考虑到要点1.1,前人文献通常会提出他们想要解决的问题(识别情绪),以及他们将如何获得基本的真相数据:从用户收集情绪评级或使用已知的标准化数据集(97%)。但是,只有少数作品符合1.2点(73.7%)。虽然作者通常同时收集EEG信号和受试者在刺激暴露期间的感受情绪评估。但有些作品只收集信号数据,假设刺激有效地引发了预期的情绪。然而,情绪不能被成功激发,这意味着这种假设可能会影响识别者的质量,导致作者提出错误或不充分的结论。
4.2 R2 -连接兴趣心理状态到神经生理学
在基于神经生理信号估计情感(或认知)状态时,一个关键方面是将给定的心理状态与特定的生理信号联系起来。因此,在文献中发现的结果应该被用来形成关于神经生理测量的方式预计会随所研究心理状态而变化(以及如何变化)的假设。这样,研究者就能够识别出心理状态估计分类模型训练步骤中有用的变量/特征,并验证心理状态估计模型是否如预期的那样发挥作用。
建议2针对这些方面,然而根据本研究的分析,只有34.3%的研究符合它。研究人员倾向于只展示他们用来提取脑电图特征的方法,以及特征本身,而不解释他们想要识别的情绪和他们使用的特征之间的关系。
4.3 R3 -消除混杂因素
混杂因素尤其重要,因为它们会影响神经生理学的研究。在脑电图的特殊情况下,被试的不自主运动可能会在采集的数据中产生人工伪迹。避免这些问题的最好方法是适当地设计研究。然而,混淆物的存在很难完全消除。在这些情况下,混淆是无法避免的,研究者们应该检查数据,以验证它们的存在,更重要的是,检查神经生理学变量是否因目标心理状态或混淆因素而变化(即证明实验效应的有效性,而不是混淆导致的结果)。
大部分的研究(87.9%)试图使用适当的研究设计来避免混杂因素(关键点3.1)。例如,为受试者提供适应时间,使他们习惯该设备,以及一个轻松的环境,具有理想的温度、光线和舒适度条件。不太常见的是对数据进行验证,以发现混淆并删除它们(关键点3.2和3.3 - 67.7%)。一个潜在的原因是,研究脑电图信号的研究人员应用了伪迹去除技术。因此,作者认为没有必要观察数据和手动删除它们。这个原因也可以解释为什么只有极少数作品符合要点3.4(5.1%)。有关脑电图伪迹去除的进一步信息,请参见Uriguen等人(2015)的研究。
4.4 R4 -遵守良好分类规范
分类分析被用来估计心理状态,特别是高维信号(如脑电图)。通常,监督分类模型是用收集的数据中的样本进行训练,并根据不同的心理状态进行标记(训练集)。接下来,训练后的模型被用来标记新的神经生理学数据(测试集)。然后,通过对比测试集的分类标签和实际真实标签来确定分类器的性能。为保证分类精度不膨胀,应仔细选择训练集的预处理和参数设置,并独立于测试集。
大约49%的研究满足了推荐四的所有要点。几乎所有的作品(超过96%)都完成了关键点4.2和4.3,而关键点4.1只在49.5%的研究中完成。这主要是由于一些作者不提供任何有关这方面的信息,或使用来自同一会议/主题的数据进行训练和测试。由于收集的训练数据与测试数据之间存在依赖关系,因此不能保证得到的结果不是由于依赖关系造成的,可能会出现过于乐观的结果。在同一主题的数据中,作者往往不会概括收集到的结果。
4.5 R5 -洞察分类成功的原因
分类性能是关于训练的模型评估新的神经生理学数据目标心理状态准确性的主要依据。然而除了展示分类结果,展示不同特征(和特征组合)背后的神经生理过程的很重要(也就是解释分类成功的原因)。
通常,作者从脑电图信号中提取各种特征,然后用这些特征或它们的组合训练分类器(关键点5.2- 68.7%)。然而,他们只报告获得的结果,没有任何解释或对结果或为什么一些功能集比其他更好的见解(关键点5.1- 32.3%)。
4.6 R6 -使用神经生理学的附加值
只有部分研究解释了脑电图信号比其他生理测量方法的优势,后者也可以用来捕捉一个人的情绪(关键点6.1- 61.6%)。大量的工作解释了将从这类识别器中受益的应用程序类型,以及它们可以为这些应用程序带来什么附加价值(关键点6.2% - 77.8%)。
4.7讨论
总而言之,部分建议已在修订工作中被采纳。本文提出了感兴趣的目标心理状态,以及通过生理数据识别情绪可以给科学界带来的预期收益,和将从其应用中受益的普通公众。本文还介绍了所使用的分类方法,并解释了他们如何在训练集和测试集上使用。预处理和分类技术的选择似乎是独立于验证过程的。
未来的工作应该提供更多关于脑电图信号(以及用于分类的特征)如何随目前心理状态而变化的信息,因为它可能会影响结果的呈现(即更多更多的关注时间相关的信息)。未来应该更多地展示使用脑电图信号(和选择的设备)相比于其他生理测量的优势,并努力减少混杂因素的存在。同事伪迹去除技术的使用不应完全取代对所收集信号的人工校验。应提供更多关于分类方法使用的不同参数的信息,以增加结果的可重复性和鲁棒性,并增加不同数据之间的比较。
脑电图中的情绪识别
近年来,从脑电图信号中识别情绪受到了广泛关注。为了利用EEG信号识别情绪,需要执行以下步骤(见图5):1)实验刺激必须有效;2)有效记录用户大脑中观察到的电压变化;3)从记录的信号中去除噪音和伪迹;4)对所得数据进行分析,提取相关特征;5)基于训练集,利用计算出的特征训练分类器,对原始脑信号进行解释。
按照以下标准对满足14个关键点中的9个的63部作品进行比较:被试、刺激(和刺激持续时间)、被激发的情绪、脑电图设备(带有采样频率)、电极位置、伪影过滤、脑电图特征提取、特征提取方法、使用的分类器、离线vs在线训练/测试、用户依赖或用户独立的数据,结果如下。
图5.基于脑电图的情绪识别过程。
5.1测试协议
在接下来的段落中,研究者将考虑使用的刺激类型和对应的持续时间、被试人数、被试性别,以及最终需要被识别的情绪(见表3)进行分析。
5.1.1参与者
每篇文章中使用的参与者数量差异很大,从1到161名参与者,中位数只有15名。当参与者的数量如此之少时,很难验证数据和结果的准确性和意义。很明显,大多数作品没有使用一个统计上显著的被试数量,以提供一个良好的实验信度和效度水平,47%的作品评审使用少于15个被试,只有大约27%使用至少30个被试。
关于参与者的性别,24%的作品中省略了性别。由于男性和女性可能会以不同的方式感知情感刺激,所以要保证不同性别的被试数量是平衡的。然而只有23%的文章满足这一要求。少数文章只关注一种性别:没有文章只测试女性被试,而7%的作品只测试男性被试。其余的文章被试的数量不平衡,样本中男性多于女性(68%)。
5.1.2刺激
情绪诱发有两种方法:主体诱发和事件诱发。在主体诱发中,情绪可以通过要求参与者回忆他们过去的情绪片段或表现得好像他们感觉到了某种特定的情绪而产生。在事件诱发中,可以使用不同的方式,包括视觉、听觉、触觉或气味刺激。这些情绪刺激通常用来覆盖所需的唤起水平和效价状态(或基本情绪)。情绪诱发受目标情绪的复杂性和数量的影响。
通过开发被试的自我评分或使用标准刺激集,可以确保刺激诱发的情绪状态的有效性。例如国际情感图片系统(IAPS)、日内瓦情感图片数据库(GAPED)和国际情感数字化声音系统(IADS)。情感现象的持续时间可以用来定义时间类别,从完全成熟的情绪(持续几秒钟或几分钟)到性格特征(如果不是持续一生的话,也可以持续数年)。
近26%的研究使用图像作为刺激。他们中的大多数(56.3%)使用的图像来自IAPS,12.5%来自面部情感图片(POFA),6.25%来自GAPED,6.25%来自Ekman’s Picture Set,还有6.25%来自中国情感图片系统(CAPS)。其余的没有提供关于图像来源的信息。刺激呈现的平均持续时间为11.97秒,介于1.5秒和48秒之间。
23.8%的研究使用视频作为刺激,然而其中93.33%的研究没有提供视频来源的信息,而剩下的研究使用的是来自来自斯坦福的情感片段。在刺激持续时间方面,40%的研究中的每个视频没有固定的时间(范围从0.5秒到5分钟)。提供持续时间信息的研究平均持续时间为171.6秒,最短为30秒,最长为288秒。
17.5%的研究使用音乐作为刺激,其中18%使用IADS,剩下的(82%)没有提供关于来源的信息。平均持续时间为57.1秒,从15秒到180秒不等。
相当一部分的研究使用了现有的数据集,既提供了生理数据,也提供了用户在受到刺激后的情绪评估(22.2%)。大多数数据集使用EEG、生理和视频信号(DEAP)进行情绪分析,其余数据集使用Mahnob HCI。
剩下的研究使用了参与者自己的记忆(持续时间未报告),俄罗斯方块游戏(5分钟),表演动作(8分钟),气味(8秒),现场表演(持续时间未公布),IAPS和音乐视频(60秒),音乐视频(1 - 2分钟),还有伴着音乐的GAPED (2分钟)等多种方式来诱发情绪。
5.1.3情感
约46%的研究试图识别基本情绪,最常见的情绪是悲伤(62.1%)、快乐(48.3%)、愤怒/生气(44.8%)、恐惧(44.8%)、喜悦(27.6%)、惊讶(27.6%)、厌恶(24.1%)、愉快(20.1%)和中性(13.8%)。
大约30%的研究确认了效价和觉醒度,其中三个还确定了优势度。其余研究中还发现了其他情绪状态,如积极和消极(29.4%)、积极、消极和中性(17.6%)、平静-中性和负性兴奋(11.8%)、平静、积极兴奋和负性兴奋(11.8%)和喜欢/不喜欢(11.8%)。需要注意的是,多数研究都设计了较多的诱发情绪,但是由于结果不佳,它们最终只会报告其中一到两种情绪。
5.2 EEG记录
由于设置EEG设备所需的时间、佩戴该设备的用户的舒适度以及要处理的特征量,使用的电极数量(和设备)占主导地位。由于这些原因,理想情况下应该减少电极的数量。然而,正如下面的段落中所述,目前的大多数工作仍然需要相对大量的电极和昂贵的临床设备。
5.2.1设备
在回顾文献时发现前人使用了有17种不同的脑电图设备。大多数都是商业性的,只有一个是由作者开发的。使用最多的是Biosemi Active Two(37.1%),Emotiv wireless headset (16.1%),EEG module from Neuroscan Inc.(14.5%)和g.MOBIlab(4.8%)。在这些设备中,最便携、最容易使用的是Emotiv wireless headset。
其中一个研究没有提供有关所使用的设备的信息,而另一个研究指明了所使用的设备,但没有指定所使用的采样率。
其余的采样频率分别为512Hz(21.3%)、256Hz(19.7%)和500hz(13.1%)。考虑到使用频率最高的设备,采用Biosemi Active Two采集EEG信号,采样频率分别为512Hz(56.5%)、256Hz(17.4%)、1024Hz(17.4%)和2048Hz(8.7%);Emotiv为128Hz(56.6%),2048Hz(44.4%);g.MOBIlab的采样频率为256Hz;最后使用Neuroscan,Inc设备的采样频率为500Hz。
5.2.2电极点
大多数的研究提供了关于电极及其位置信息。然而,11.1%的研究完全没有提供任何关于定位的信息,只有3.17%的研究不提供EEG信号采集电极的数量。在不显示电极位置信息,但显示电极数量的作品中,从14个电极到64个电极,平均52个电极。32.14%的作品采用了10-20系统(又称IS),最小电极数为1个,最大64个,平均41个。5.4%的作品采用10-10系统,有64个电极。从所有表明使用的电极数量和每个电极位置的研究中,平均值是14,范围从1到32。
在所有的研究中,使用了69个覆盖整个头皮的不同电极(见图6)。FTC1、FTC2、TCP1和TCP2没有出现在图像中,但在回顾的研究中使用了它们(每一个都小于3%)。2006年,对10/10电极定位方法进行了改进。将不一致的T3/T4和T5/T6替换为一致的T7/T8和P7/P8。这样,几乎沿同一矢状线的所有位置都有相同的后脚本数字,所有具有相同字母(s)的位置都在同一冠状线上。
图6.10-10系统的电极定位。
例外的是FP1/FP2和O1/O2位置。由于在工作中使用了这两个术语,所以研究者决定在表中保留原来的术语,并对每一对新旧术语的出现情况进行总结,仅用于评估目的。最常用的是F4(82.9%)、F3(77.14%)、T7(65.7%)、FP1(65.7%)、FP2(60%)、T8(60%)、F7(60%)、F8(60%)、O1群(54.3%)、P7(54.3%), P8(51.4%)、O2(51.4%)、FC5(40%)、FC6(40%)、C4(40%)、C3(34.3%)、AF3(34.3%)、AF4(34.3%)、P3(28.6%)、P4(25.7%)、Pz(25.7%)。AF代表额前叶,C代表中央,F代表额叶,FC代表额中央,FP代表额极,FT代表额颞叶,O代表枕叶,P代表顶叶,T代表颞叶,z代表零。
使用最多的电极是放置在额叶的电极(考虑到用红色和橙色代表的电极),这与将情绪和额叶联系起来的发现是一致的。
5.3伪迹滤除
尽管作者试图通过提醒被试来减少收集到的脑电图信号(如眨眼)中的伪影,但它们仍然可能发生。由于与参与者相关的伪迹存在,24%的研究手动删除了一些数据。除了手工去除这些信息的工作外,采用盲源分离(BSS)(19.3%)和独立成分分析(ICA)(8.8%)等方法去除眼球运动、眨眼、肌肉、心脏和线噪声。约30%的研究使用共同平均参考(CAR)(计算了所有电极的平均值,通过去除所有电极的平均值来消除噪声)(58.9%)、拉普拉斯(23.6%)或均值平均参考(AMR) (5.9%)等方法重新转换参考电极。
由于不是所有收集的频率都对情绪识别问题有用,大约84%的研究使用了一些带通滤波器。虽然在所有作品中使用了24个频率范围,但最常用的频率是4-45Hz(33.3%)、1-100Hz(6.25%)、8-30Hz(6.25%)、2-42Hz(6.25%)。16.58%的作品也使用了Notch滤波器(主要是在50和60Hz)。43.9%的研究降低了原始EEG信号的采样率:52%到128Hz,16%到206Hz,12%到256Hz,4%到512Hz,4%到500Hz,4%到300Hz,4%到250Hz,4%到32Hz。
5.4特征提取
在下面的段落中,研究者给出了从脑电图信号中提取的最常见的特征,以及用于实现这些特征的方法(见表6)。
5.4.1 EEG特征
关于作者使用的脑电图特征类型,约有10%的研究没有提供任何信息,而其余的研究主要使用的是delta、theta、alpha、beta和gamma波段(89.4%)。其中约有37%的人将所有波段组合在一起,而其余的人只选择其中的一些波段,如alpha、beta、theta和gamma(13.7%)、alpha和beta(7.8%)、alpha、beta和gamma(7.8%)、delta、theta、alpha和beta(3.92%)、alpha、beta和gamma(3.92%)以及其他组合。
使用的其余特征是事件相关(ERD/ERS),事件相关电位(ERP)和固定频带(如0.5-30Hz,1- 10Hz,1- 46hz和2-30Hz)。可以使用各种方法处理特征提取过程。在审查的研究中,使用了42种不同的方法。超过47.6%的研究使用了多种方法,尽管最终只有一种方法被选为最佳方法。
最常用的方法是傅里叶变换,如短时傅里叶变换(STFT)或离散傅里叶变换(DFT)(25.4%)、统计(23.8%)、功率谱密度(PSD)(22.2%)、小波变换(WT)(19.1%)、近似熵(AE)、微分熵(DE)、样本熵等熵或小波熵(WE)(15.9%)、高阶交叉(HOC)(9.5%)、公共空间模式(CSP)(7.9%)、分形维数(主要是Higuchi分形维数(HFD))(7.9%)和不对称指数(AI)(4.8%)。
5.5分类
情感识别领域中有大量常用的分类器家族:贝叶斯、支持向量机、决策树等。以下段落中介绍了最常用的分类器、分类类型(离线与在线)以及用于训练和测试分类器的数据类型(见表7)。情绪识别系统的训练集数据和测试集应该是不同的。由于不同研究之间存在大量差异,因此很难对它们进行比较,从而推断出有关结果质量的结论。因此,研究者将不讨论不同研究的分类精度。
5.5.1分类器
由于大多数的研究使用了多个分类器,然而只选择其中最好,因此重点筛选那些被研究者们认为较好的分类器,最终选出26个。在59%的情况下,研究者选择了支持向量机(SVM),并应用了不同的核:径向基函数(RBF) (29.7%),线性(16.2%),多项式(8.1%),高斯(5.4%),皮尔逊(2.7%)。其中8%的工作使用了自适应支持向量机adaptive SVM、多类支持向量机(ML-SVM)或最小二乘支持向量机(LS-SVM)等变量。29%的使用SVM的研究没有指定使用的核。近14%的作品选择了k-近邻k-Nearest Neighbors (kNN);有些作品没有指定k的值(44.4%),而在其他作品中,它从k = 2到8不等。使用线性判别分析(LDA)作者占6.3%,使用二次判别分析(QDA)的作者占3.2%。最后,6.35%(各3.17%)的作者选择了朴素贝叶斯(NB)和多层感知器反向传播(MLP-BP)。
5.5.2线上与线下
脑电信号总是随着时间而改变其性质。信号的这种非平稳性质可能导致使用特定生理数据建立的分类模型不能反映脑电信号已经发生的变化。大多数分类方法都基于数据来自平稳分布的想法。因此,除非模型能够反映脑电信号中发生的变化,否则分类精度将随着时间的推移而降低。然而,90%的被审查研究采用了离线分类方法,只有8%的作品采用了在线分类(更适合实时场景)。其中一项工作应用了在线和离线技术。
5.5.3用户独立和用户依赖
分类过程的另一个重要方面是分类器是否使用依赖于用户的数据进行训练。对于依赖于用户的数据,将为每个用户生成一个新模型,并使用该用户数据完成测试步骤。通常,会获得更好的结果,但这是以缺乏泛化为代价的。对于独立于用户的模型,多个用户的数据用于培训和测试目的。这使得模型更容易适用于新用户,因为不需要创建新模型。在所审查的作品中,46.8%使用独立于用户的数据,43.5%使用依赖于用户的数据。大约8%的人使用了用这两种模型训练过的分类器。其余研究不提供任何关于其数据依赖于用户或独立于用户的信息。
5.6讨论
大多数研究提供了参与者数量和性别的信息,这些信息用于收集脑电图数据和验证工作。关于使用的参与者数量,很少有作者进行了涉及统计上显著的参与者数量的研究。此外,研究对象的性别分布并不公平,因为大多数研究主要是男性参与者。
研究人员主要借助图像或视频作为激发情绪的刺激物。然而,只有在图像的情况下,作者使用了众所周知的数据集。此外,需要识别的情绪集之间没有一致的意见,大多数的研究都是为了识别基本的情绪(或它们的子集),其余的研究集中在效价和唤醒水平上。当需要识别的情绪数量增加时,准确率往往会下降。
使用了不同的采样频率和不同电极组的各种设备来收集数据。对于必须使用多少电极以及电极的位置,作者们并没有达成共识。作者主要使用脑电波作为特征,并采用不同的方法进行提取。进一步解释使用的特征和旨在识别的情绪之间的关系将是理解所呈现的结果的重要因素。
大多数工作都采用伪影去除技术来提高采集信号的质量。使用多个分类器,大量的作者训练各种分类器,并选择最佳的分类器。建议作者提供更多关于分类器参数的细节,并对预处理的脑电图信号进行人工验证,以确保所应用的技术足以去除现有的噪声。
最佳实践建议
在本节中,研究者介绍了一组关于构建基于脑电图的情绪识别器的适用性和步骤的最佳实践建议。为此,考虑到Brouwer等人的建议,以及在本文第4节中提出的每个关键点的分析,以及第5节中描述的分析。
适用性:
•解释使用脑电图相对于其他生理测量的优势;
•展示基于脑电的情感识别器对现实问题的适用性,以及这些识别器能为这些领域的应用带来什么。
测试协议:
•测试协议为了得到统计和有意义的结果,在研究中至少使用30名参与者。如果作者使用两种性别的参与者,参与者的数量应该平衡;
•应该收集EEG信号以外的信息(例如,主观评估、验证主观评估的面部表情、其他生理测量),作为情绪正确诱发的证据;
•确保向参与者呈现刺激的时间足以引发情绪反应,但不能太长,以适应刺激(这可能会影响参与者的自我评估);
•尽可能使用现有数据集的刺激,如IAP、IAD或DEAP,方便不同研究结果的对比;
•呈现待识别的情绪集合,以及提出它们如何随采集的EEG信号而变化的假设;
•尽可能使用文献中已有的一组情绪,从而进行比较研究;
•以高舒适度和说明设计研究(例如,在图像之间提供放松时间、良好的照明和温度;指导用户在图像可视化过程中避免移动/闪烁)。
特征提取:
•如果作者未使用从所有电极收集的数据,则说明使用了哪些电极;
•呈现从信号中提取的特征;
•提供有关用于提取特征的计算方法的信息,但更重要的是,详细说明特征与待识别情绪的关系,即,如果成功激发给定情绪且信号无噪声,则方法的预期行为是什么。
分类识别:
•提供所用分类器的详细信息,特别是所用的分类器和用于训练分类器的参数(例如,许多作者仅表示使用了支持向量机,但未表示所用的核);
•随着时间的推移,在不同的Session中收集每个参与者的数据,以避免培训和测试数据之间的依赖性;
•提供有关识别器类型的信息:在线或离线;
•识别系统是否依赖于用户(每个参与者单独训练模型)或独立(模型训练基于所有参与者),因为它们之间的结果差异很大(通常在依赖于用户的识别器中获得更好的准确度);
•保证预处理和分类程序独立于验证数据;
•解释用于评估识别器性能的指标。如果识别出一种以上的情绪,则提供单独的绩效指标(理想情况下,是混淆矩阵),而不仅仅是最终平均值;
•检查多个特征及其组合;
•根据特征与使用中的神经生理学过程之间的现有关系,呈现并解释结果(例如,一个给定的特征或一组特征在使用一组电极识别特定情绪时表现更好)。
原文:Emotions Recognition Using EEG Signals: A Survey.