Neural Architectures for Fine-grained Entity Type Classification

文章首发于zhkun的小窝

Title: Neural Architectures for Fine-grained Entity Type Classification
Author: Sonse Shimaoka, Pontus Stenetorp, Kentaro Inui, Sebastian Riedel
Link: https://arxiv.org/pdf/1606.01341

包含文章

An Attentive Neural Architecture for Fine-grained Entity Type Classification
Neural Architectures for Fine-grained Entity Type Classification

这两篇文章是同一组作者做的，相关内容也比较类似，因此放到一起进行介绍

问题定义

Named Entity Typing (NET)主要是为实体表示（entity mention）标记其类别的一个任务，输入一般是一个句子，包含情境和实体表示，一般用$[C_{-s}, C_{-s+1}, ..., C_{-1}][w_1, w_2, ..., w_n][C_1, C_2, ..., C_s]$表示，输出的结果就是实体表示的类别，和传统的分类任务不同的地方在于，实体表示有可能是属于多个类别的（如果分类粒度比较细的话），而且这些类别之间也存在包含关系之类的，这点就比较复杂了，目前比较常用的做法是首先根据输出概率，选择一个最大的作为entity mention的类别（保证至少有一个类别），然后设定阈值，大于阈值的都可以认为是该entity mention的类别。

模型框架

该框架展示了基于神经网络的NET模型的基本结构，在本文中利用上图对该框架进行简单介绍

Entity Mention表示

首先得到每个词的词向量，将entity mention中的所有词向量做平均，得到entity mention的表示，考虑到entity mention一般不是很长，所以该方法简单有效，当然也可以使用RNN之类的方法进行表示，

其中，u就是将每个词表示为它的词向量表示。

context表示

很容易理解，entity mention的语义是十分依赖其所存在的情境的，如果是在一个句子中的话，那么该情境信息就是上下文的词，在本文中，作者通过三种方法来处理这些词：

和entity mention表示类似，采用和平均的方法

考虑到情境信息是一个序列关系，因此也可以采用LSTM来处理

单纯那最后一个状态进行拼接并不能有效利用LSTM中的信息，因此注意力机制派上了用场，这里采用了得是一种类似于self-attention的方法：

从这里我们可以看出是由各自的输入决定各自的权重，但在最后计算整体的权重正规化时同时考虑了左侧和右侧的权重，在这里将这两部分同时考虑，最后得到一个加权和作为最后的context表示。

分类

分别得到entity mention和context的表示之后，普遍的做法是直接将这两部分拼接起来，然后进行逻辑回归，

有了预测结果，考虑到这是一个分类任务，那么就可以使用交叉熵作为损失函数，

在这个损失函数中，K表示所有的类别数，t是预测出来的二值向量，即在每个类别上都要做一个二分类，根据之前的介绍，这部分需要这么做，因为他的分类结果是不一定的。

这就是基于神经网络的NET模型的大体框架，从我看到的几篇文章中，基本上都是用了这样的框架，只是在处理细节上略有不同，

额外部分

本文题目的这篇文章可以认为是作者对前一篇工作的改进，具体改进部分有两点：

人工特征信息

考虑到有些人工特征信息是十分重要的，但如果直接让模型去学习，需要花费很大的精力，现在整个神经网络结构也趋向于加入一些简单的人工特征信息，本文也是考虑到这些信息，具体如下图：

这些特征基本上将entity mention的一些语义信息，主题信息等考虑了进去，相当于增加了很多先验知识，这个还是十分有用的，那如何加这些信息呢？作者首先用0，1向量表示这些特征信息，然后将其映射到低维空间，最后得到人工特征的向量表示

然后将其加入到公式(3.1)中的拼接向量，变为如下形式：

这个还是很有特点的，一般我们都是将这些特征信息加入到最初的输入中，这样丰富了输入的信息，整个模型也可以更好地利用这些信息，这个方法个人感觉这些特征信息利用的不够充分。

分层标签编码

这是本文另一个很有意思的地方，首先，作为分类目标，其实考虑到他的类别表示，也是可以使用词向量进行编码的，而且这么做有一个好处，一些不常见的标签可以通过这种方式找到离他比较近的语义空间向量，从而能够更准确的进行分类，作者也是考虑到这样的信息，同时分类内容比较细的话，标签信息之间具有包含关系，因此，作者使用0，1向量表示类别信息，同时包含high-level和low-level的标签，然后对它们进行混合编码，而不是每个类别一个向量表示，具体可以从下图感受：

然后就得到了类别表示矩阵$W_y$，巧妙地地方在于，作者使用这个矩阵表示作为公式（4.2）分类层的参数，从而很好的将类别信息引入到了分类过程中，这样模型在分类的的时候就能获取更多的信息了，这个信息融合方式还是很有意思的。

实验结果

照例贴出最后的结果图，作者的方法虽然简单，但还是很有效的

个人总结

这篇文章展示了基于神经网络的NET模型的基本结构，包括对context的处理，对entity mention的处理，attention的使用，人工特征的添加等，是一篇很不错的文章，同时该方法也有很多地方值得改进，例如人工信息的利用，注意力机制，对文本信息的处理等，感觉还是有很多地方可以改进的，值得思考↖(^ω)↗

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,924评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,781评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,813评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,264评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,273评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,383评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,800评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,482评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,673评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,497评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,545评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,240评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,802评论 3赞 304
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,866评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,101评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,673评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,245评论 2赞 341