Linguistic Features for Readability Assessment 论文翻译

Linguistic Features for Readability Assessment，2020，acl

摘要

可读性评估的目的是根据适合学习读者的水平自动对文本进行分类。完成这项任务的传统方法是利用多种语言驱动特征，并结合简单的机器学习模型。最近的方法通过丢弃这些特征并利用深度学习模型提高了性能。然而，添加语言驱动特征的深度学习模型是否会进一步提高学习成绩还不得而知。本文将这两种方法结合起来，以提高模型的整体性能，解决这一问题。通过对两大可读语料库的评估，我们发现，在给出足够的训练数据的情况下，增加具有语言驱动特征的深度学习模型并不能提高最先进的性能。我们的结果为这一假设提供了初步证据，即目前最先进的深度学习模型代表了与可读性相关的文本的语言特征。未来对这些模型中形成的表征性质的研究可以阐明学习特征及其与传统方法中假设的语言驱动特征的关系。

1.引言

可读性评估的任务是确定文本的适当阅读水平。这种标签对各种各样的群体都是有用的，包括学习读者和第二语言学习者。可读性评估系统通常包括对文档标签的阅读者和作者进行分析。传统上，这些文档被转换成一些语言特性，这些语言特性被输入到简单的模型中，如支持向量机和MLPs (Schwarm和Ostendorf, 2005;Vajjala和Meurers, 2012)。最近，可读性评估模型利用深度神经网络和注意机制(Martinc等，2019)。虽然这些模型在可读性评估语料库上取得了最先进的性能，但它们很难在整个语料库中泛化，无法实现完美的分类。通常，模型性能是通过收集额外的数据来改进的。然而，考虑到冗长的文档和需要合格的注释者，可读性注释是费时且昂贵的。另一种提高模型性能的方法是融合语言特征和深度学习的传统和现代范式。通过将语言特征提供的归纳偏差纳入深度学习模型，我们可能能够减少可读性数据集较小所带来的限制。

在本文中，我们评估了语言特征和深度学习模型的联合使用。我们简单地将深度学习模型的输出作为特征本身来实现这种融合。然后，这些输出与语言特征结合，进一步输入到其他一些模型，如支持向量机。我们根据Vajjala Balakrishna(2015)广泛的心理语言学动机组成来选择语言特征。tranformer和分层注意网络被选择作为深度学习模型，因为它们在可读性评估方面的最新表现。模型在两个最大的可用于可读性评估的语料库上进行评估:WeeBit和Newsela。我们还评估了不同规模的训练集，以调查语言特征在缺乏数据的上下文中的使用。我们的结果发现，即使有足够的训练数据，这种语言特征也不能提供实质性的好处。

本文的其余部分组织如下。相关研究将在第2节中进行描述。第3节详细介绍了预处理、特性和模型构建。第4节介绍了两个语料库的模型评价。第5节讨论了我们的结果的含义。我们提供了用于我们实验的代码的公开版本。

2.相关工作

可读性评估的工作涉及到三个核心部分的进展:语料、特性和模型。早期的研究使用的是小型语料库、有限的特征集和简单的模型，而现在的研究则使用了国外的特征集和深度学习技术。考虑到为文本指定可读性级别所需的时间和条件，标签语料库很难收集。随着Schwarm和Ostendorf(2005)的WeeklyReader语料库的引入，可读性语料库的规模显著扩大。由一份教育杂志的文章组成，WeeklyReader语料库包含2400篇文章。Vajjala和Meurers(2012)在weeklyreader语料库的基础上，添加来自BBC Bitesize网站的数据，形成WeeBit语料库。这个WeeBit语料库更大，包含大约6000个文档，同时也跨越了更大范围的可读性级别。在这些语料库中，主题和可读性高度相关。因此，Xia等人(2016)构建了Newsela语料库，在该语料库中，每一篇文章都在多个阅读水平上表示，从而降低了这种相关性。早期关于可读性评估的工作，比如Flesch(1948)，提取了简单的文本特征像字符计数。最近，Schwarm和dostendorf(2005)分析了更广泛的一些属性，包括词汇表以外的分数和句法特征，如平均解析树高度。Vajjala和Meurers(2012)集合了也许是最广泛的一类特征。他们采用了Lu(2010)所示的测量方法，以便与第二语言习得测量方法以及来自Celex词汇数据库和MRC心理语言学数据库的心理语言学相关特征很好地相关联(Baayen等人，1995年;威尔逊,1988)。传统的特征公式，如Flesch公式，依赖于线性模型。后来的研究进展到更复杂的模型，如SVMs(Schwarm和Ostendorf, 2005)。最近，利用深度神经网络结合注意机制，已经实现了可读性评估。这些方法完全忽略了语言特征，而代之以输入单词的原始嵌入，依靠模型本身来提取相关特征。具体来说，Martinc等人(2019)发现，预训练的transformer模型在WeeBit语料库上达到了最先进的性能，而分层注意网络(HAN)在Newsela语料库上达到了最先进的性能。

深度学习方法通常会排除任何特定的语言特征。一般来说，“无特征”方法是合理的假设，即在有足够的数据、训练和模型复杂性的情况下，模型应该学习研究人员试图预计算的任何语言特征。然而，预先计算的语言特征在数据贫乏的情况下可能有用，在这种情况下数据采集是昂贵的和容易出错的。因此，在本文中，我们尝试将语言特征与深度学习方法结合起来，以提高可读性评估。

3.方法

3.1语料

3.1.1 WeeBit

WeeBit语料库是由Vajjala和Meurers(2012)通过结合WeeklyReader教育杂志和BBC Bitesize教育网站的文件组合而成的。他们选择了一系列适合7到16岁读者的可读性水平的课程。为了避免分类偏差，他们对类进行了低采样，以使每个类的文档数量相等，达到625个。我们把这个下采样语料库称为“WeeBit下采样语料库”。遵循Xia等人(2016)和Martinc等人(2019)的方法，我们对weebitcorpus进行了额外的预处理，以去除无关的内容。

3.1.2 Newsela

Newsela语料库(Xia et al.， 2016)由1,911篇新闻文章组成，每篇文章都以简化的方式重写了4次，供不同阅读水平的读者阅读。这种简化过程意味着，对于任何给定的主题，都存在适合多种阅读水平的材料示例。这种主题上的重叠比WeeBit语料库更具标注难度。与WeeBit语料库类似，Newsela语料库标注了从2年级到12年级的等级级别。与WeeBit一样，这些标签可以作为类处理，也可以转换为回归的数字标签。

3.1.3 标注的方法

通常，语料库中的可读性类被视为不相关的类。这些方法使用原始标签作为不同的无序类。然而，可读性标签是有序的，从低可读性到高可读性。一些工作已经解决了这个问题，如Flor等人(2013)的可读性模型，通过线性回归预测年级水平。为了测试不同的方法来确认这种常态性，我们设计了三种标记文档的方法:“分类”、“年龄回归”和“有序类回归”。分类方法使用最初给出的类。这种方法不假设类的任何顺序性。为了简单起见，避免这种顺序性可能是可取的。

“年龄回归”应用组成数据集给出的年龄范围的平均值。例如，在这种方法中，每周阅读的2级文档将被给予7.5的标签，因为它们是为7-8岁的读者准备的。年龄回归与标准分类相比的优势在于，它提供了关于可读性差异大小的更精确的信息。

最后，“有序类回归”给类按难度排序的等距整数。难度最小的班级被标为“0”，难度第二轻的班级被标为“1”，以此类推。与年龄回归一样，这种标签会构成回归而不是分类问题。这种方法保留了年龄回归法在展示顺序性方面的优势。然而，有序类回归标记删除了关于类之间难度的相对差异的信息，而是断言它们的难度是等距的。信息丢失背后的动机是，班级之间的年龄差异可能不会直接转化为难度的差异。例如，为7、8岁儿童准备的文档与为15、16岁儿童准备的文档之间的可读性差异可能会更大，因为阅读能力的发展在更小的年龄可能会加快。

对于最终的模型推论，我们使用分类方法与之前的工作进行比较。对于CNN的中介模型, 这三种方法都经过了测试。由于使用CNN模型的不同方法差异不大，其他的模型类型都局限于简单的分类方法。

3.2 特征

由于成功地使用语言特征为可读性建模，我们考虑了大量与可读性相关的文本分析。除了利用现有可读性研究中提出的特征，我们还研究了以句法歧义和句法多样性为重点的新特征的形成。语言的这一具有挑战性的方面似乎在现有的可读性文献中没有得到充分利用。

3.2.1现有特征

为了捕捉不同的特征，我们利用现有的Vajjala Balakrishna(2015)基于现存的可读性文献中的86个特征描述开发的语言特征计算软件（代码：https://bitbucket. org/nishkalavallabhi/complexity-features.）。鉴于有大量的特征，在本节中，我们将重点讨论特征的类别及其心理语言动机(在可能的情况下)和属性。所使用的功能的完整列表可以在附录A中找到。

传统的特征

最基本的特征包括Vajjala和Meurers(2012)在长期的可读性公式中使用的“传统特征”。它们包括每个单词的字符、每个单词的音节以及基于诸如Flesch-Kincaid公式(Kincaid et al.， 1975)等特征的传统公式。另一组特性类型由使用Stanford解析器提取的词性标记的计数和比率组成(Klein和Manning, 2003)。除了像名词这样的基本词性，一些特征还包括像名词短语和动词短语这样的短语。所有这些计数都按照单词标记的数量或句子的数量进行规范化，以使它们在不同长度的文档之间具有可比性。这些计数没有提供任何使用它们的心理语言学动机;然而，这不是一个不合理的假设，这些成分根据阅读等级进行相对使用。经验表明，这些特性对可读性有一定的预测能力。除了词性计数外，我们还利用单词类型计数作为一个简单的基线特征，即计算词汇表中每个可能单词的实例数量。这些计数还除以文档长度来生成比例。有些特征比词类更抽象，包括复杂的句法成分，如子句和从属子句。具体地说，Lu(2010)发现句子、从句和t单元3与第二语言学习者阅读文件的能力相关。对于许多先前描述的多词句法成分，如名词短语和从句，特征也由它们的平均长度构成。最后，分析了树本身的特性，如平均高度。

除了语法解析的基本特征之外，Vajjala Balakrishna(2015)还从语言数据库中加入了“单词特色”特征。一个重要的来源是Celex词汇数据库Baayen等人(1995)，该数据库“包含了超过50,000个英语词元的正字法、音位、形态学、句法和频率方面的信息”。数据库似乎有一个形态学数据的焦点，如一个词是否可以被认为是外借词和它是否包含词缀。它还包含一些句法特征，这些句法特征在句法分析中是不明显的，例如一个名词是否可数。MRC心理语言学数据库Wilson(1988)也被用于关注单词的习得年龄等级，这是一个文档词汇恰当性的清晰指标。

3.2.2 新颖的句法特征

我们研究了其他的语法特征，这些特征可能与可读性有关，但它们的质量不是现有特征的目标。这些特征被用来与之前描述的已有的语言特征相结合;未来的工作可以独立地利用这些新的特征来研究它们对可读性信息提取的特殊影响。为了生成语法解析，我们使用了来自Stanford解析器包的PCFG(概率上下文无关语法)解析器(Klein和Manning, 2003)。

句法歧义

句子可以有多种符合语法规则的语法分析。因此，语法分析器产生多个用解析似然注释的解析。使用产生的解析的数量来衡量歧义似乎是合理的。然而，这种方法对句子的长度非常敏感，因为较长的句子可能有更多的句法分析。相反，如果这个概率列表被视为一个分布，这个分布的标准偏差很可能与句法歧义的理解相关。

Definition 3.1. PDx

句子s的解析偏差，PDx(s)，是s的x个最可能的解析对数概率分布的标准差。如果s有小于x个有效解析，则对所有有效解析取分布。对于较大的x值，PDx(s)对句子长度非常敏感:较长的句子很可能需要进行语法验证，从而产生增加标准偏差的低概率尾部。为了降低这种敏感性，另一种方法是测量最大解析概率和平均解析概率之间的差异。

Deﬁnition3.2. PDMx

PDMx(s)是x个最可能解析的最大解析概率和最小解析概率之间的差值。如果s有小于x个有效解析，则均值采用所有有效解析。作为解析研究和难以置信解析的噪声之间的折衷，我们选择PDM10、PD10和PD2作为特征在本文的模型中使用。

Part-of-Speech Divergence

为了捕捉一个句子或文档的语法组成，我们可以计算每个词类、短语或从句的用法。计数可以收集到一个分布。然后，这个分布的标准差POSDdev衡量一个句子的语法异质性。

Deﬁnition3.3. POSDdev

POSDdev(d)是文件d的POS数量分布的标准偏差。类似地，我们可能想衡量这种语法构成与整个文件的组成有何不同，这个概念可能被称为语法唯一性。为了捕捉这个概念，我们测量句子POS计数分布和文档POS计数分布之间的Kullback-Leibler差异(Kullback和Leibler, 1951)。

Deﬁnition3.4. POSdiv

设P(s)为文件d中句子s的POS计数分布，设Q为文件d的POS计数分布，设|d|为文件d中句子的数量。

3.3 models

为了确定额外的模型复杂性的性能改进或缺乏改进，对模型复杂性进行了大范围的评估。在这一节中，我们将描述这些模型的构造和使用在本文进行的实验，大致按照模型的复杂性排序。

SVMs,Linear Models,and Logistic Regression

我们使用Scikit-Learn库(Pedregosa et al.， 2011)构建SVM模型。超参数优化采用Hsu等人(2003)提出的指南进行。在Scikit-Learn库中，我们也使用了线性支持向量分类器(带线性核的SVM)和logistic回归分类器。由于简单是这些评估的目标，没有执行超参数优化。使用随机平均梯度下降(sag)优化器训练logistic回归分类器。

CNN

卷积神经网络在句子分类方面的表现被选择(Kim, 2014)。本文使用的CNN模型基于Kim(2014)所描述的模型，使用Keras (Cholletandothers,2015)、Tensorflow(Abadietal)实现。

Transformer

transformer (Vaswani等人，2017)是一种基于神经网络的模型，在包括可读性评估在内的一系列自然语言任务上取得了最先进的结果(Martinc等人，2019)。transformer利用注意机制，使模型在构造输出时注意输入的特定部分。尽管它们被定义为序列到序列的模型，但通过在网络末端放置一个额外的线性层，并训练该层产生期望的输出，它们可以被修改以完成各种NLP任务。这种方法与预训练相结合，常常可以获得最先进的效果。在本文中，我们使用伯特(Devlin)等人，2019)基于transformer的模型，预先在BooksCorpus(800万字)(Zhu等人，2015)和英文维基百科上训练。然后在特定的可读性语料库(如WeeBit)上对模型进行微调。预训练的BERT模型来源于Huggingface transformer库(Wolf et al.， 2019)，由12个大小为768的隐藏层和12个自我注意头组成。微调步骤利用了Martinc等人(2019)的实现。在Huggingface库中经过预处理的transformer中，有能够接受大小为128、256和512的序列的transformer。选择128个大小的模型是基于Martinc等人(2019)的发现，该模型在WeeBit和Newsela语料库上取得了最高的性能。超过输入序列大小的文档将被截断。

HAN

分层注意网络包括通过两个双向神经网络提供输入，每个神经网络都有一个单独的注意机制。一种注意机制关注每个句子中的不同单词，而另一种注意机制关注文档中的句子。这些分层注意机制被认为能更好地模拟文档的结构，从而产生更好的分类结果。本文中使用的模型的实现与Yang等人(2016)描述的原始架构相同，并由作者martincetal(2019)基于Nguyen(2020)的代码提供。

3.4 Incorporating Linguistic Features with Neural Models

目前所描述的神经网络模型以原始文本或文本的单词向量嵌入作为输入。它们没有使用第3.2节中所描述的语言特征。我们假设将这些语言特征与深度神经模型相结合可以提高他们在可读性评估中的表现。虽然这些模型在理论上代表了与语言特征所规定的相似的特征，但我们假设数据量和模型复杂性可能不足以捕获它们。这一点可以从某些模型在可读性语料库中未能泛化得到证明。Martinc等(2019)发现BERT模型在WeeBit语料库上表现良好，加权F1得分为0.8401，而在Newsela语料库上表现较差，F1得分仅为0.5759。他们假设，出现这种差异“是因为BERT被预先训练成一种语言模型，因此在分类阶段，它更倾向于语义上的差异，而不是结构上的差异，因此在可读性类之间存在明显语义差异的问题上表现得更好”。同样，在Newsela上，HAN的表现比BERT好，但在WeeBit语料库上表现明显差。鉴于这些不足，我们假设语言特征提供的归纳偏差可以提高模型的通用性和整体性能。为了将语言特征和神经模型编织在一起，我们采用一种简单的方法，即使用这些神经网络的输出本身作为特征，与语言特征结合，然后输入到一个更简单的非神经模型，如支持向量机。基于支持向量机在积分数值特征时的简单性和频繁性，我们选择支持向量机作为最终的分类模型。神经模型的输出可以是任何标签方法，如第3.1节所述的年级分类或年龄回归。虽然我们对所有这些标注方法都进行了CNNs的测试，但最终推论的微小差异导致我们将中介结果限制为对其他模型类型的简单分类。

3.5 Training and Evaluation Details

所有的实验都包含五重交叉验证。所有基于神经网络的模型都使用Adam optimizer (Kingma and Ba, 2015)进行训练，CNN、HAN和transformer的学习率分别为10 - 3,10 - 4和2 - 5。HAN和CNN的模型训练了20和30个epochs。transformer models经过3个epochs的微调。所有的结果都以加权F1或宏观F1得分的形式报告。要计算加权F1，首先要独立计算每个类的F1分数，就好像每个类都是一个二分类的例子。然后，这些F1得分被合并成一个加权平均值，其中每个类别由该类别的样本数量加权。因此，加权F1分数平均对待每个样本，但优先考虑最常见的类。宏观F1类似于加权F1得分，因为F1得分首先为每个级别独立计算。然而，对于宏观F1得分，一级F1得分被合并成一个没有任何权重的平均值。因此，宏观F1分数平等地对待每个类，但并不是平等地对待每个样本，剥夺了大类别的样本，并优先处理了小类别的样本。

4.results

在本节中，我们报告将语言特征纳入可读性评估模型的实验结果。分别对WeeBit和Newsela这两个语料库进行分析和比较。我们的结果表明，与独立的深度学习模型相比，语言特征提供的好处很少甚至没有。虽然语料库实验结果展示了测试的一部分方法，但完整的结果在附录B中。

4.1 Newsela Experiments

对于Newsela语料库，虽然语言特征能够提高某些模型的性能，但表现最好的模型没有使用语言特征。表1给出了模型的结果。HAN的表现并没有被具有语言特征的模型超越，而transformer模型却被超越了。这一改进表明，语言特征捕获了transformer无法捕获或没有足够数据学习的可读性信息。将语言特征添加到transformer模型中的超大效应，使得加权F1得分提高了0.22，这可能揭示了它们所处理的信息类型。Martinc等人(2019)假设，预先训练的语言模型“更倾向于依赖语义差异而不是结构差异”，这表明这些特征特别适合提供诸如句法质量等非语义信息。

4.2 WeeBitExperiments

从下采样数据集和全数据集两个角度对WeeBit语料库进行了分析。原始结果和模型排名在两种数据集大小之间具有很大的可比性。

4.2.1 下采样WeeBit实验

与Newsela语料库一样，下采样的WeeBit语料库通过对语言特征进行分析没有任何收获。表现最好的模型是transformer，它没有使用语言特征。表2显示了一些最佳性能模型的结果。

与Newsela语料库不同的是，在WeeBit语料库中，单词类型模型与transformer模型的表现接近最优。单词型模型不涉及词序，因此语义分析和主题分析形成了它们的核心分析。因此，这个结果支持了Martinc et al.(2019)的假设，即经过预处理的transformer特别注意语义内容。该结果还表明，单词类型特征可以提供成功的可读性评估所需的重要信息。两种语料库的最佳表现模型类型的差异可能是由于成分不同造成的。与Newsela语料库不同，WeeBit语料库的主题与难度之间存在很强的相关性。提取该主题和语义内容被认为是transformer的一个特殊优势(Martinc et al.， 2019)，从而改进了该语料库的结果。

4.2.2 全WeeBit数据集

所有模型都在全不平衡WeeBit语料库上进行了测试，表现最好的结果如表3所示。大多数性能数字适度增长。但是，如果文档与这个不平衡数据集的分布不匹配，这些增益可能看不到。此外，下采样的模型与标准的WeeBit语料库之间的排名变化不大。虽然带有transformer和语言特征的SVM比单独的transformer表现更好，但这种差异极小(<0.005)，因此不太可能有统计学意义。

4.3 Effects of Training Set Size

一个解释语言特征缺乏影响的假设是，模型学会了在足够的数据下提取这些特征。因此，也许在更少数据的环境下，语言特征将被证明更有用。为了验证这一假设，我们评估了两种基于cnn的模型，一种带有语言特征，另一种不带有语言特征，分别带有下采样的WeeBit语料库的不同大小的训练子集。这些不同数据集大小的Macro F1如图1所示。在不同训练集大小的试验中，测试集保持不变，从而隔离了训练集大小的影响。这个假设对于那些文档少于200个的极其小的训练数据子集是成立的。在这个训练集的大小之上，语言特征的增加导致了性能的微小变化。因此，要么通过语言特征提取的模式可以用很少的数据学习，要么通过深度学习模型提取的模式与语言特征显著不同。考虑到语言特征可以提高某些语料库(Newsela)和模型类型(transformer)的表现，后者似乎更有可能。

该结果表明，对于小数据集，应考虑语言特征的使用。然而，数据集的大小，这些特性失去效用是非常小的。因此，收集额外的数据通常比投资时间来纳入语言特征更有效。

4.4 Effects of Linguistic Features

总的来说，语言特征的失败表明，考虑到现有的语料库、模型复杂性和模型结构，它们并没有在最先进的模型已经学习到的基础上增加更多的信息。然而，在不确定性数据的情况下，它们可以提高深度学习模型的性能。同样，如果语料库的标签更加多样化、更加准确和一致，那么语言特征可能会更有用。在这种情况下，性能最好的模型可能已经在这个语料库上取得了接近最大的性能。最大性能可能低于满分的原因是数据集标记中的不一致和不一致。据推测，数据集是由多个标签者评估的，这些标签者可能并不总是彼此一致，甚至他们自己也不一致。因此，如果在这个语料库中，由一组新的人类标签器或原始标签器承担标签可读性的任务，他们可能只能获得与这些实验中看到的最佳性能相似的性能。进行人体实验将有助于分析语料库的有效性和一致性。同样，如果语料库越多样化(在长度、主题、写作风格等方面存在差异)，在没有额外训练数据的情况下，模型单独进行标签可能会更加困难;在这种情况下，语言特征可能更有助于提供归纳偏差。此外，添加语言特征的改进不足表明，深度学习模型可能已经表现出了这些特征。未来的工作可以探究语言特征的不同方面的模型，从而研究哪些特性与可读性最相关。

5 Conclusion

在这篇论文中，我们探讨了语言特征在深度学习方法中可读性评估中的作用，并提出了这样一个问题:结合语言特征能改善最先进的模型吗?我们构建的语言特征集中于现有特征忽略的句法属性。我们将这些特性合并到模型类型中，包括可读性研究中常用的模型类型和更现代的深度学习方法。我们在两个不同的语料库上评估了这些模型，这两个语料库对可读性评估提出了不同的挑战。在不同的训练集大小下进行额外的评估，以探索语言特征所提供的归纳偏差。虽然语言特征偶尔会提高模型的性能，特别是在小的训练集规模，这些模型没有达到最先进的性能。考虑到语言特征一般不会改善深度学习模型，这些模型可能已经隐含地捕获了对可读性评估有用的特征。因此，未来的工作应该研究模型在多大程度上代表了语言特征，也许可以通过探究的方法。尽管这项工作支持在可读性评估中不使用语言特性，但这种断言受到可用语料库的限制。具体来说，语料构建方法中的歧义限制了我们衡量标签一致性和有效性的能力。因此，最先进的模型可能已经达到最大的性能。因此，今后的工作应探索用严密的一致性方法构建和评价可读性库;这样的语料库可以用语言特征进行最有效的评估。例如，可以通过对多个标签进行平均来提高准确性。总的来说，语言特征似乎对可读性评估没有用处。虽然这些特征经常用于传统的可读性评估模型，但通常不能提高深度学习方法的性能。因此，本文为理解深度学习模型的质量和能力提供了一个比较语言学特征的起点。通过这种比较，我们可以分析哪些类型的信息这些模型适合学习。