利用词嵌入和长短期记忆人工神经网络的行动性和政治性文本分类（论文读书笔记）

Actionable and Political Text Classification using Word Embeddings and LSTM
Rao A, Spasojevic N. Actionable and Political Text Classification using Word Embeddings and LSTM[J]. arXiv preprint arXiv:1607.02501, 2016.

关键词

文本分类；社交媒体；深度学习；神经网络；LSTM模型；可行动性；政治

目标问题

在文本分类领域，大量的研究是关于情感挖掘问题，而其他形式的文本分类则研究得相对较少。在一部分应用场景下，只获取文本的情感分类不足以提供充分的信息来满足应用需求。论文考虑使用基于应用上下文标准的文本分类。其中应用的技术包括：词嵌入和长短期记忆人工神级网络。具体应用为文本可行动性分类和政治倾向分类。

论文主要贡献

词嵌入已经被证明是文本语义特征提取的有效工具，LSTM网络能有效完成与文本序列有关的任务。论文将两者结合来解决基于上下文的文本分类问题。

方法与模型

预处理

输入的信息被分词（tokenized）后作为神经网络的输入。每一个词例（token）的词频作为其索引。词频排名前V的词例组成词汇库。每一条信息可以被转化为词频索引序列。论文选择一个最大允许长度作为每一个索引序列的固定长度，如果索引序列实际长度小于最大允许长度，用数字0补充多余的索引。

神经网络架构

递归神经网络（Recurrent Neural Networks，RNNs）是神经网络的一类。与传统升降网络不同的是，RNNs使用一种具有内部状态、能保存前向事件信息的单元（unit），因此非常适用于需要处理连续信息的场合，比如文本处理。
传统的RNNs不能保存长期依赖关系，长短期记忆（Long Short Term Memory ，LSTM）神经网络则能避免这个问题。
论文使用的神经网络模型应用了词嵌入和LSTM单元实现基于上下文的文本分类，具体的神经网络层次结构如下：

嵌入层
网络的第一层是嵌入层。嵌入层的目的是建立离散词汇库中的词语到低维向量空间的映射。这种词汇的分布式表示在建立概念之间的关系上具有极大优势。通过嵌入层，实现了文本特征的自动提取，无需手动定义特征。
LSTM层
网络的第二层是LSTM层。LSTM层由若干个LSTM单元组成。一个LSTM单元相当于一个记忆细胞，由四部分组成：一个输入门，一个一个自循环连接，一个遗忘门以及一个输出门。
退出层
退出（Dropout）是神经网络中避免过拟合的一种调节机制，通过随机中止部分神经单元来避免共同适应。
充分连接层
充分连接层中，上一层所有的激活都充分连接。这一层用来学习高层次特征间的非线性结合。
损失层
这一层用来衡量预测结果和实际结果之间的偏差。论文使用二维交叉熵作为损失函数。

实验一：可行动性预测

可行性实验判断是将消息划分为可行动的或者非可行动的两类。

数据集

数据集来源于一个社交媒体平台。该平台帮助代理代表公司对顾客来信进行回复。平台整合了多个社交媒体平台，包括Twitter、Facebook、google+、品牌社区以及在线论坛。
监督训练的标签通过以下方式收集：如果代理对一条信息进行了回复，这条信息则被标注为可行动的（Actionable），用1作为标签；反之则为非可行动性的（Non-Actionable）,用0作为标签。论文使用了从2014.11.1到2015.05.1为期6个月的数据，收集了同等数量的可行动数据集和非可行动性数据集。80%的数据集用来训练，余下的20%用来测试。实验针对多种语言，因此每一种语言都包括一组训练集和测试集。实验还包括一组包含所有语言的数据集。数据集大小随语言变化，最小的2.7万条信息（Farsi）到最大的850万条信息（English）。混合语言数据集规模为170万。

实验结果

实验结果分析

与传统神经网络比较，在Arabic以外的其他语种，论文使用的LSTM神经网络预测精度上表现更佳。具体结果见下表：

模型建立中的一个参数变量是词表规模，记作V。如table 1所示，实验选取了V的两个值，20,000和100,000。从整体实验结果来看，两个词表的测试集精度相差不大。这表明较小的数据集同样能有效预测消息的可行动性，并且模型训练时间开销更小。

实验二：政治倾向预测

第二个文本分类任务是判断与美国政治相关的政治倾向。根据消息中表现出的观点，将消息分为民主党或者共和党。

数据集

数据收取方式：根据twitter上其他用户创建的twitter 名单，选取Twitter上政治倾向明确的用户。收集这些用户从2015.10.12到2016.1.12为期三个月发布的信息。如果是民主党，则标记为0，如果是共和党则标记为1。训练集和测试集的比例为8:2，规模分别为336,000和84,000。

训练与评估

使用与第一个实验相同的神将网络模型（嵌入层和LSTM层各有128个单元），得到的结果为：训练集的精度为88.82%，测试集的精度为87.57%。

模型参数对训练结果的影响

嵌入层、LSTM层的单元数变化对模型精度的影响参考Figure 2。Figure 2(a)显示当LSTM为固定64个单元时，模型精度随嵌入层单元数量的变化情况；Figure 2(b)显示当嵌入层为固定128个单元时，模型精度随LSTM单元数量的变化情况；Figure 3(b)显示当LSTM层和嵌入层单元数量同时增长时，模型精度的变化情况。

优化器（optimizers）:Adam优化器精度最高，为87.57%；其次是Adagrad，为87.12%;RM-Sprop,87.06%
批规模（batch size）:较小的批规模会使模型精度稍微提高，但较大的批则使模型收敛的更快。实验结果表明，当批大小为64时，模型精度达到87.57%，并且相对收敛较快。
激活函数（activation）：使用sigmoid激活函数比tanh函数在准确度上提高了0.5%。
从Figure2可以看出，模型精度随着LSTM层和嵌入层单元数量增加呈现增长趋势，但是关于参数如何选择仍然是一个开放问题。但Figure2表明，随着参数变化，模型精度在一个较小的区间浮动，变化总体相对较小。另外，使用规模较小的网络在训练时间和内存限制上存在优势。

最后编辑于：2017.12.04 00:52:17

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342