Pytorch学习记录-基于深度上下文模型的GEC

Pytorch学习记录-GEC语法纠错02
五月第一周要结束了，接下来的三个月主要是文献阅读，准备8、9月的开题报告，技术类的文献集中在GEC和Text maching的应用方面，读完之后找demo复现，然后应用。
理论方面的论文也都是英文的

1. Deep Context Model for Grammatical Error Correction

这是我读的第一篇文法纠错的论文，流利说英语发表于2017年，很短，先来看看。

1.1 摘要部分

模型架构：基于RNN构建的深度上下文模型（deep context model）
模型解决的问题：识别5种语法错误
模型解决方法：将错误纠正任务当作一种分类任务，模型从自然文本中学习语法上下文表示
模型的优势：不像传统分类方法那样要求语言学知识
实验数据：在CoNLL-2014 shared task达到SOTA

1.2 介绍

已有的GEC主要使用三类方法：预定义规则（pre-defined rules）、分类（classification）、机器翻译（MT）。

预定义规则（pre-defined rules）无法涵盖所有的语法错误
分类（classification）
- 把文本语法纠错（GEC）视为多分类问题，其中会针对给定的错误类型指定一个混淆集合，并且使用的特征通常包括文本的表面形式和语法信息（例如，使用词性标签和依存句法）。使用分类方法，错误类型和提取特征方法需要事先定义清楚。
- 另一种分类器如平均感知器和朴素贝叶斯算法也适用于GEC任务。
- 问题是特征必须人工设置，这样就很难覆盖所有的情景，另外由于语言的复杂性，这种方法不适合GEC
基于统计学的机器翻译（SMT）优点是它可以利用大规模语言资源（网络规模语言模型）和纠错文本
- 问题：基于短语的MT方式存在字的离散性、线性映射和对全局上下文不敏感等问题
基于神经网络的机器翻译（NMT）
- 能够应对分类方法无法处理的冗余和非惯用语法错误
- 双向LSTM模型能够用于语法错误检查任务

使用分类器方法作为GEC的优势

不基于标记数据，这样就不是那么昂贵了
分类方法易于融合其他更高级的上下文信息。许多语法纠错方法可以从词性信息，句法树信息获益，而且实验表明分类方法融合这些信息对错误纠正效果提升明显。

作者搞出来一个“基于深层上下文模型的GEC新型分类器方法”，不再使用表层和浅层特征（POS，依存信息）而是直接使用深层特征。使用双向GRU表达上下文。我们的新方法不需要为每种错误类型进行详细的特征工程。深度上下文表示以端到端的方式从大型纯文本语料库中学习。

1.3 模型

image.png

深度上下文向量表示的结构。对于目标单词"go"，（“I”）上下文从左到右的顺序输入到GRU网络，另一个（“to school everyday”）是把上下文从右到左输入。获取上下文，这样就能够得到上下文向量，公式如下：

可以看到是处理左边部分，阅读顺序从左到右，是处理右边部分，阅读顺序从右到左。l,r 分别表示从左到右的词向量和从右到左词向量。
在完成词嵌入后，将整合在一起的向量传入多层感知机（MLP）来获取两个向量之间的依存关系。在多层感知机（MLP）的第二层使用softmax预测目标词或目标词的状态。L(x)是一个全连接线性操作。最后获得的y是预测词或词的状态。

如果预测结果不同于原始单词或其状态，则检测到错误，预测结果用作校正。
不同的错误类型中，y被定义为不同的方式，这篇论文主要包括五个错误类型

image.png

冠词纠错模型中，如果y等于0,1或2，则意味着冠词应该选择介词“a/an”、“the”或“非冠词”；
介词纠错模型中，y表示每个介词（in , from , to，at …）的索引位置；
动词纠错模型中，y表示动词的形式（0为动词原形，1为动名词或现在分词，2为动词过去式）；
主谓一致（人称）纠错模型中，0表示非第三人称单数，1表示第三人称单数；
名词纠错模型中，0表示单数名词，1表示复数名词。

1.4 实验

1.4.1 数据集和评估

训练：从wiki中提取训练样本。在实验中，使用Glove词向量来初始化，在训练过程中更新词向量，词向量维度为300。所有的输入文本转小写，而且把所有不在词表中的词映射为unk表示，词表大小是40000。
测试：使用CoNLL-2014测试数据集来评价模型，数据集包含有1312个句子。
标准：使用 $F_{0.5}$ 作为纠错指标。 $F_{0.5}$ 是准确率（P）和召回率（R）的组合指标，并且分配两倍权重到准确率上，因为在纠错任务中准确率要求往往比召回率更重要。

1.4.2 错误类型

五个错误类型，分类器都会独立训练。使用Stanford cordnlp需要检测的定位目标词。就是说，使用这类分词工具，对目标句子进行分词，同时会打上数据标签，提取其中的关系，通过学习这些关系来训练模型（这样就和人类自身对特定学习任务进行训练很类似了）。
例如，在主谓一致纠错任务中，用分词工具提取非第三人称单数单词和第三人称单数单词的映射关系。在测试中，分词工具可以定位动词，指示这些动词应该用我们的模型来检查。如果检查到错误，我们可以使用预测结果来纠正句子。

1.4.3 窗口大小

纠正不同的语法错误要求不同的依存距离。主谓一致的任务中谓语有可能距离很远；介词类错误只需要使用临近词汇。因此对于不同的语法错误类型要使用不同的上下文窗口大小。
结论：在冠词错误类型，窗口大小设置为5；介词错误类型，窗户大小为3；名词数错误类型，窗口大小为15。在图中选择 $F_{0.5}$ 数值最大的即可。

image.png

1.4.4 词根

引入词根作为额外的上下文信息。目标词的单复数与该词自身密切相关。同样也是效果显著。

总结一下

这活不容易啊，中间的模型很简单，但是要考虑周全很难……

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,723评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,080评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,604评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,440评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,431评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,499评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,893评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,541评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,751评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,547评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,619评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,320评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,890评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,896评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,137评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,796评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,335评论 2赞 342

Pytorch学习记录-基于深度上下文模型的GEC

1. Deep Context Model for Grammatical Error Correction

1.1 摘要部分

1.2 介绍

1.3 模型

1.4 实验

1.4.1 数据集和评估

1.4.2 错误类型

1.4.3 窗口大小

1.4.4 词根

总结一下

推荐阅读更多精彩内容