Pytorch学习记录-基于CRF+BiLSTM的CGED

Pytorch学习记录-GEC语法纠错03
五月第一周要结束了,接下来的三个月主要是文献阅读,准备8、9月的开题报告,技术类的文献集中在GEC和Text maching的应用方面,读完之后找demo复现,然后应用。
理论方面的论文也都是英文的

2. Alibaba at IJCNLP-2017 Task 1: Embedding Grammatical Features into LSTMs for Chinese Grammatical Error Diagnosis Task

2017年国际自然语言处理联合会议(IJCNLP 2017)中文语法纠错第一名。在这里,使用的是Chinese Grammatical Error Diagnosis(CGED中文语法错误诊断)

2.1 摘要

  • 任务:处理四中语法错误(多词(R)、少词(M)、错词(S)、词序错误(W))
  • 处理方式:我们将任务视为序列标记问题,并设计一些手工技术来解决
  • 模型结构:基于LSTM-CRF模型和3个合成策略

2.2 介绍

中文的特点(古老和多样化),既没有单数/复数变化,也没有动词的紧张变化,具有更灵活的表达但松散的结构语法,使用更短的句子但很少有短语。它也有更多的重复,而在英文中这种重复会被省略。
中-英文GED之间的相似之处:固定的词汇搭配,可以从英语NLP研究中获得经验。

2.3 CGED

  • NLPTea CGED开始于2014年,由CFL提供训练数据。
  • 数据包括四类错误,多词(R)、少词(M)、错词(S)、词序错误(W)(注意,这个和上一篇的词汇错误有一些不同,上一篇五个错误是从语法规则上来讨论,这里是对词的讨论)。
  • 在提供测试数据集的情况下,需要开发CGED来检测:(1)句子是否正确; (2)句子包含哪些错误; (3)确切的错误位置。
image.png

2.4 相关工作

在CoNLL2013和2014年的shared Task中获得了很多关于英文GED的成果。

  • 手工制作规则
  • 统计模型
  • 翻译模型
  • GED的搭配问题
  • LSTM在这类任务中是有效的
    CGED可以借鉴英文的成果,2012年一个基于条件随机场(CRF)分类器用于词序错误查找;2014年基于规则的诊断系统;NLPTea在2014-2016年CGED,哈工大基于CRF+BiLSTM模型,朝阳科技大学基于CRF模型的POS语言特征

2.5 方法

2.5.1 模型

将CGED看成是一个序列标记问题,HIT之前使用过基于CRF和LSTM的模型解决序列标记问题,在CRF的帮助下,LSTM模型表现更好。因此,这篇论文使用的也是双向LSTM作为RNN单元对输入句子进行建模。

image.png

2.5.2 特征工程

由于缺乏训练数据,任务严重依赖先验知识:POS特征。即是说特征工程对于这类任务十分重要,研究者列出了他们使用的特征。

image.png
  • 字嵌入向量 ,随机初始化得到的
  • 二元字向量,Bigram是这项任务中的一个信息性和区别性的特征,它让模型很容易学习到相邻字符之间的搭配程度
  • 词性标注向量 ,由需要标注的这个字所在的词的词性决定 ,同时会标注是这个词的开始B,还是内部I
  • 词性的得分,从大的训练数据中统计得到 。因为有的词既可以做名词又可以做动词,对于做动词或者名词,其中的你某个可能比较常见,得分就比较高。
  • 相邻词汇搭配,在训练数据中,发现相邻单词之间发生了错误的搭配,基于这一点计算PMI信息得分
    PMI(w1,w2)=\log(\frac{p(w1,w2)}{p(w1)*p(w2)} )
    研究者将PMI得分作为LSTM-CRF模型的输入特征嵌入低维度向量,在字符级解决任务后,研究者还将位置指标添加到离散的PMI得分中。
  • 依存特征,相邻词汇的PMI分数能够代表临近次会,而搭配关系并不仅仅局限在临近词汇,这时就需要依存特征。

2.5.3 模型集成

由于随机初始化和随机丢失的原因,模型的结果不是很理想,研究者使用了3种不同的集成方式来提高结果。

  • 第一个是简单整合所有的结果
  • 第二个是对模型生成的错误结果进行排序,最后20%的结果删除。提高了P值但是仍然没有超过的单个的模型
  • 第三个是投票

在所有实验中,使用了4组不同的参数,并为每个参数组训练了2个模型,因此总共使用了8个模型。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,723评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,080评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,604评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,440评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,431评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,499评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,893评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,541评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,751评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,547评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,619评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,320评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,890评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,896评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,137评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,796评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,335评论 2 342

推荐阅读更多精彩内容