Soft-Masked BERT:文本纠错与BERT的最新结合


👉知乎原文

文本纠错,是自然语言处理领域检测一段文字是否存在错别字、以及将错别字纠正过来的技术,一般用于文本预处理阶段,同时能显著缓解智能客服等场景下语音识别(ASR)不准确的问题。

本文将通过以下几个章节简要介绍文本纠错相关知识。

  1. 文本纠错示例与难点
  2. 文本纠错常用技术
  3. 如何将 BERT 应用于文本纠错
  4. 文本纠错最优模型:Soft-Masked BERT(2020-ACL)
  5. 立马上手的纠错工具推荐

一.文本纠错示例与难点

生活中常见的文本错误可以分为(1)字形相似引起的错误(2)拼音相似引起的错误 两大类;如:“咳数”->“咳嗽”;“哈蜜”->“哈密”。错别字往往来自于如下的“相似字典”。

相似发音中文字典.png
相似字形中文字典.png

其他错误还包括方言、口语化、重复输入导致的错误,在ASR中较为常见。

现有的NLP技术已经能解决多数文本拼写错误。剩余挑战、纠错难点主要在于,部分文本拼写错误需要常识背景(world-knowledge)才能识别。例如:

Wrong: "我想去埃及金子塔旅游。"
Right: "我想去埃及金字塔旅游。"

将其中的“金子塔”纠正为“金字塔”需要一定的背景知识。

同时,部分错误需要模型像人一样具备一定的推理和分析能力才能识破。例如:

Wrong: "他的求胜欲很强,为了越狱在挖洞。"
Right: "他的求生欲很强,为了越狱在挖洞。"

“求胜欲”和“求生欲”在自然语言中都是正确的,但是结合上下文语境来分析,显然后者更为合适。

最后,文本纠错技术对于误判率有严格的要求,一般要求低于0.5%。如果纠错方法的误判率很高(将正确的词“纠正”成错误的),会对系统和用户体验有很差的负面效果。

二.文本纠错常用技术

错别字纠正已经有很多年的研究历史。常用的方法可以归纳为错别字词典、编辑距离、语言模型等。

构建错别字词典人工成本较高,适用于错别字有限的部分垂直领域;编辑距离采用类似字符串模糊匹配的方法,通过对照正确样本可以纠正部分常见错别字和语病,但是通用性不足。

所以,现阶段学术界和工业界研究的重点一般都是基于语言模型的纠错技术。2018年之前,语言模型的方法可以分为传统的n-gram LM和DNN LM,可以以字或词为纠错粒度。其中“字粒度”的语义信息相对较弱,因此误判率会高于“词粒度”的纠错;“词粒度”则较依赖于分词模型的准确率。

为了降低误判率,往往在模型的输出层加入CRF层校对,通过学习转移概率和全局最优路径避免不合理的错别字输出。

2018年之后,预训练语言模型开始流行,研究人员很快把BERT类的模型迁移到了文本纠错中,并取得了新的最优效果。

三、将BERT应用于文本纠错

BERT

BERT与以往深度学习模型的主要区别在于:预训练阶段使用了“掩码语言模型”MLM和“判断s1是否为s2下一句”NSP两个任务,特征抽取使用12层双向Transformer,更大的训练语料和机器「More Money,More Power」。其中,MLM任务使得模型并不知道输入位置的词汇是否为正确的词汇(10%概率),这就迫使模型更多地依赖于上下文信息去预测词汇,赋予了模型一定的纠错能力。

一种简单的使用方式为,依次将文本s中的每一个字c做mask掩码,依赖c的上下文来预测c位置最合适的字(假设词表大小为20000,相当于在句子中的每一个位置做了一个“20000分类”)。设置一个容错阈值k=5,如果原先的字c出现在预测结果的top5中,就认为该位置不是错别字,否则是错别字。

BERT纠错baseline-图片来自网络

当然这种方法过于粗暴,很可能造成高误判率。作为优化,我们可以使用模型预训练的方式对BERT进行微调,显著改进纠错效果。纠错的领域最好和微调领域相同(如果需要在新闻类文章中纠错,可以使用“人民日报语料”对模型微调)。

四、文本纠错最优模型:Soft-Masked BERT

为了弥补baseline方法的不足,最大限度发挥BERT功效,复旦大学的研究人员在2020 ACL上发表了最新论文——“Spelling Error Correction with Soft-Masked BERT”。

Soft-Masked BERT 模型图

论文提出的模型主要创新点在于两点:

(1)将文本纠错划分为检测网络(Detection)和纠正网络(Correction)两部分,纠正网络的输入来自于检测网络输出。

(2)以检测网络的输出作为权重,将 masking 特征添加到各个输入字符,即“Soft-Masked”。

论文简要分析

具体来看,模型Input是字粒度的word-embedding,可以使用BERT-Embedding层的输出或者word2vec。检测网络由Bi-GRU组成,充分学习输入的上下文信息,输出是每个位置 i 可能为错别字的概率 p(i),值越大表示该位置出错的可能性越大。

检测网络 与 Soft Masking

Soft Masking 部分,将每个位置的特征以 p(i) 的概率乘上 masking 字符的特征,以(1-p(i))的概率乘上原始的输入特征,最后两部分相加作为每一个字符的特征,输入到纠正网络中。原文描述:

Soft Masking 模块处理

纠正网络

纠正网络部分,是一个基于BERT的序列多分类标记模型。检测网络输出的特征作为BERT 12层Transformer模块的输入,最后一层的输出+Input部分的Embedding特征(残差连接)作为每个字符最终的特征表示。

纠正网络

最后,将每个字特征过一层 Softmax 分类器,从候选词表中输出概率最大的字符认为是每个位置的正确字符。

纠正网络的特征表示

整个网络的训练端到端进行,损失函数由检测网络和纠正网络加权构成。

Loss Function

实验结果

作者在“SIGHAN”和“NEWs Title”两份数据集上做了对比实验。其中“SIGHAN”是2013年开源的中文文本纠错数据集,规模在1000条左右。“NEWs Title”是从今日头条新闻标题中自动构建的纠错数据集(根据文章开头展示的相似字形、相似拼音字典),有500万条语料。

Result

Soft-Masked BERT 在两份数据集上几乎都取得了最好结果。同时我们发现,Finetune对于原始BERT的表现具有巨大的促进作用。

论文代码作者暂未开源,但是论文的模型和思路应该是非常清晰易懂的,实现起来不会太难。这儿先立个flag,有时间自己来实现一下。

五、立马上手的纠错工具推荐

笔者简单调研发现,文本纠错网上已经有不少的开源工具包供大家使用了。其中最知名的应该是pycorrector,支持kenlm、rnn_crf、seq2seq、BERT等各种模型。结合具体领域的微调和少量规则修正,应该可以满足大部分场景中的文本纠错需求了。

Demo

Demo中笔者使用了经人民日报语料微调过的BERT模型,通过pycorrect加载来做基于MLM的文本纠错。识别结果还算可以,甚至“金字塔”这种需要常识的错别字都纠正出来了。

当然pycorrect还支持各种语言模型和DNN模型,供大家自行把玩了: )

此外,笔者还找到一个基于京东客服机器人语料做的中文纠错模型。主要解决同音字自动纠错问题,比如:

对京东新人度大打折扣 -- > 对京东信任度大打折扣
我想买哥苹果手机 纠正句:我想买个苹果手机

不过仓库上一次更新在5年前,年代久远估计效果有限。


以上是笔者近期调研文本纠错后的一些思考,刚好上周在实验室组会中做了分享,就顺便写了这篇文章。如果大家发现有好的纠错方法或论文,欢迎留言分享一起交流哈💪

👉 欢迎来我的个人仓库勾搭

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342