论文笔记 | 事件分类中基于潜在全局信息开发方法的概率软逻辑模型

本文主要复述论文["A Probabilistic Soft Logic Based Approach to Exploiting Latent and Global Informationin Event Classiﬁcation"] 的主要内容，以便自我回顾，也希望可以给大噶带来帮助~

摘要

不能由NLP工具直接获得的潜在信息对于事件分类是至关重要的，比如事件之间的关联信息、细粒度实体类型的潜在局部信息。这篇论文不同于以往着眼于复杂局部特征的方法，而是充分利用这些全局信息来实现事件分类。为此，作者提出了一种概率软逻辑模型，以逻辑的形式编码全局信息。

介绍

全局信息：对于例句(1)He left the company, and he planned to go home directly. 我们从第一个trigger"left"很难判断出它是Transport事件还是End-Position事件，但是联合后面子句中的"go"就可以很明确的判断出标记"left"是Transport事件的概率更大。论文中描述此类全局信息为事件-事件联合型。
潜在局部信息：对于例句(2)Obama beat McCain.仅从Obama与McCain被标记为person是无法判断trigger"beat"是elect事件还是attack事件的，但进一步的，如果我们有Obama与McCain被标记为政治人物的信息，也可以明确判定elect事件的可能性更大。论文中描述这类潜在信息为细粒度的实体类型。
** Probabilistic Soft Logic **：为了更合理的表示全局特征，作者提出了以逻辑形式来实现全局信息的编码。该方法可描述为两部分：1.对于局部部分学习一个分类器，使用局部特征为每个触发候选者生成初始判断；2.在全局部分，收集“事件-事件”关联和“主题事件”关联作为全局信息并构建全局信息数据库；3.将初始判断和全局信息形成一节逻辑公式，并以概率软逻辑训练模型从而生成结果。
该方法的流程图展示如Figure1

The Local Part

作者将局部信息规划为词的分类任务，将每个句子中的候选触发词分类成ACE语料库中定义的34(33种事件类型+未定义类型)种类型。作者选择Logistic回归模型训练分类器，分类器产出基于这34种类型的概率分布。
细粒度的实体类型：为了给实体成分更多详细的描述，作者选择了WordNet，采用K-means聚类算法来生成实体成分的描述。table1展示了聚类后的实体信息描述。其中的标签是手动标记的。

候选触发器类型：同实体成分，作者针对候选触发器(根据词性标签先删除非触发词)也做了聚类处理。table2展示了触发器分类的结果。

c1指代Attack事件，c2指代无标记事件

构造潜在特征：为了提高全局信息和局部潜在信息的利用率，作者构造了几个特征来捕获与整个句子相关的信息。1).RCF：Rich Context Features和base features的连接；2).FET：Fine-grainedEntity Types和base features的连接；3).TCT：Trigger Candidate Types和base features的连接。

The Global Part

事件-事件联合：论文中以条件概率的形式表示两个不同事件类型共现的概率，在句子级和文档级的层面上该种联合概率的分布表示等式(1)和(2)，其中T表示所有的事件类型集合，t1和t2表示事件类型。

同时，定义两个指标函数Isen(C1,C2)和Idoc(C1,C2)。其中Ci表示候选触发器，I(C1,C2)为真当且仅当C1和C2在同一个句子(文档)中。
主题-事件联合：一个文档的主题可以指向几个确定的事件类型。作者给每个文档标记主题标签，之后计算一个事件类型t在话题p下的条件分布情况(3)。

定义指标函数It(c,p)，It判定为真当且仅当包含触发器c的文档为p。有关全局信息的编码方式总结为table3。

定义eventType(c,t)表示触发词c属于事件类型t。根据table3中的描述，可以定义出table4中的公式来表示事件类型之间的关系，并应用到PSL模型中，从而提高事件分类的准确率。

实验

不同于其他的事件抽取方面的工作，该篇论文着重于事件触发词的分类，将实体类型的描述具体化，触发器类型采用聚类方法使得其特征更加明显，减少候选触发词的二义性带来的影响。

实验选取ACE2005语料库，训练集测试集的选择参照之前已有的工作。同样的，语料库的处理也选择Stanford CoreNLP。实验结果展示为table5。

最后编辑于：2019.11.21 11:50:22

禁止转载，如需转载请通过简信或评论联系作者。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,529评论 5赞 475
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,015评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,409评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,385评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,387评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,466评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,880评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,528评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,727评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,528评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,602评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,302评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,873评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,890评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,132评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,777评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,310评论 2赞 342

论文笔记 | 事件分类中基于潜在全局信息开发方法的概率软逻辑模型

摘要

介绍

The Local Part

The Global Part

实验

推荐阅读更多精彩内容