基于深度学习的处理文本数据的四步法(Embed,encode,attend,predict:)

转载来自:https://explosion.ai/blog/deep-learning-formula-nlp
在过去六个月,一种强大的新型神经网络工具出现应用于自然语言处理。新型的方法可以总结为四步骤:嵌入(embed),编码(encode),加入(attend),预测(predict)。本篇文章解释了新方法的各个部分。并在最近的两个系统中展示如何使用。
当人们思考机器学习的改善时,他们通常会考虑效率与准确率,但是这最重要的问题是通用性。比如,如果你想要在社交平台上编写程序来检测带有辱骂信息,你应该能够问题延伸为需要文本来预测类别的问题。因此不管是检测带有辱骂信息的帖子还是辨明垃圾邮件,如果这两种问题采用同样类型的输入,和输出同样类型的输出。我们可以采用相同的模型代码,并且可以通过在不同的数据数据上得到不同的解决问题方式。——采用相同的工程演绎不同的问题。

基于深度学习的四步法处理文本

词嵌入表示,即词向量是现在自然语言处理最流行的方法。词嵌入可以将分离的词当做有关联的单元,而不是完全不同的ID。可是大多数自然语言处理问题要求理解很长的文本,不单单是独立的词语。在将 文本嵌入一个词向量后,双向RNN用来编码向量为词矩阵。这个矩阵可以理解为词向量。词向量对于分词文本的上下文很敏感。最后让人疑惑的是一个加入机制,是的你的句子矩阵转换为句子向量,来准备预测。

1:词嵌入(embed)

一个嵌入表可以将一个很长,稀疏的,二进制向量表示为很短,高位,具有连续的词向量,比如,我们火车的文本是一组ASCII类别的序列,将会有256个可能的值,因此我们需要将每一个值用二进制来表示需要256维。对于a来说,只有属于97的值会是1,其他值为0 。a=0000.......1.......0000.(256) b表示为在98位置为1,其余为0.。这种方式叫做one-hot编码,不同值代表不同的向量。


在这里插入图片描述

大多数神经网络模型开始与将本文分词为词语,然后嵌入这些词语到词向量里面,奇特的模型将词向量延伸到其他信息里面。比如创建一个词袋通常是非常有用的。除了word IDS 你可以学习标签嵌入,将标签嵌入连接到单词嵌入。这使得你将一些有用的位置敏感的信息加入词表示中。可是,这会有很多强有力的方法使得词表达特定的上下文。

2: 词编码(Encode)

给定一个词向量序列,彪马这部分可以计算一个城市为句子矩阵的表示方式。其中每一行表示句子其他部分上下文中的每个标记含义。


在这里插入图片描述

这个技术可以用bidirectional RNN来实现,LSTM和GRU体系结构已经显示了很好的效果。每一个标注都可以用两部分来计算,一部分是通过前向传播,另一个是后向传播。为了得到全部的词向量,我们简单的将两个粘贴一起,下面是简单的代码:

def encode(fwd_rnn, bwd_rnn, word_vectors):
    fwd_out = ndarray((len(word_vectors), fwd_rnn.nr_hidden), dtype='float32')
    bwd_out = ndarray((len(word_vectors), bwd_rnn.nr_hidden), dtype='float32')
    fwd_state = fwd_rnn.initial_state()
    bwd_state = bwd_rnn.initial_state()
    for i in range(len(word_vectors)):
        fwd_state = fwd_rnn(word_vectors[i], fwd_state)
        bwd_state = bwd_rnn(word_vectors[-(i+1)], bwd_state)
        fwd_out[i] = fwd_state
        bwd_out[-(i+1)] = bwd_state
    return concatenate([fwd_state, bwd_state])

我认为双向RNN将是一个随着时间而变得更加具有洞察力、更有效。可是RNN大部分的直接应用是读取文本,然后从文本中预测信息。编码(encode)所做的功能是计算一个中间表示方式,特别是每一个标注特征。重要的是这个表示我们可以通过在上下文的标记来反向表达。我们可以学习到词语 “pick up” 与词语“pick on”的不同。甚至我们可以通过分离标记来处理这两个词语。这是NLP模型最大的挪点,但是现在我们解决了。

3:载入(Attend)

载入(attend)步骤将编码(encode)步骤产生的矩阵表示减少到单个向量。以至于可以通过一个标准的前向传播网络预测。载入步骤区别于其他类似操作的机制典型的优点是作为辅助上下文向量的输入。


在这里插入图片描述

通过减少矩阵到向量,你必然会丢失信息。这就是为什么上下文向量是至关重要的:它告诉你丢弃哪些信息。因此,“摘要”向量是适合于网络来计算它。最近的研究表明,载入机制是一种灵活的技术,它的新变体可以用来创建优雅和强大的解决方案。例如,Palikh等人。(2016)引入两个句子矩阵的载入机制,并输出一个向量。
在这里插入图片描述

杨等人。(2016)引入一个载入机制,它采用一个矩阵并输出一个向量。而不是从输入的某个方面派生的上下文向量。“摘要”是参照作为模型参数学习的上下文向量来计算的。这使得注载入机制是纯粹的还原操作,它可以用来代替任何和或平均池步骤。

4:预测(Predict)

一旦文本或文本对被简化为单个向量,我们就可以学习目标表示——类标签、实值、向量等。我们也可以通过使用网络作为状态机的控制器,例如基于转换的解析器来进行结构化预测。


在这里插入图片描述

有趣的是,大多数NLP模型通常支持较浅的前馈网络。这意味着一些最新的计算机视觉最重要的技术,如剩余连接和批量标准化,到目前为止对NLP社区的影响相对较小。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,340评论 5 467
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,762评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,329评论 0 329
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,678评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,583评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,995评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,493评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,145评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,293评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,250评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,267评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,973评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,556评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,648评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,873评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,257评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,809评论 2 339

推荐阅读更多精彩内容