「自然语言处理(NLP)论文推送」第二弹（含源码）805

来源：AINLPer微信公众号
编辑: ShuYini
校稿: ShuYini
时间: 2019-8-5

引言

本次共有三篇Paper和大家分享，第一篇主要是序列对序列建模训练的问题，将复杂度由 $O(n_2)$ 降到 $O(nlogn)$ 。第二篇文章是提出一种新的训练体系结构，它可以使得单一模型支持具有多种输入模式的任务以及异步的多任务学习（作者美其名曰：OmniNet）。第三篇文章自然语言关系检测相关的，为解决不可见关系缺失的问题，设计了一种表示适配器。

FirstBlood

TILE: Neural Shuffle-Exchange Networks -- Sequence Processing in O(n log n) Time
Contributor : University of Latvia （拉脱维亚大学）
Paper: https://arxiv.org/pdf/1907.07897v2.pdf
Code: https://github.com/LUMII-Syslab/shuffle-exchange

文章摘要

序列到序列处理的一个关键需求是对长期依赖关系的建模。为此，绝大多数最先进的模型都使用了 $O(n_2)$ 复杂度的注意机制，这导致长序列执行缓慢。针对这一问题，提出了一种新的Shuffle-Exchange神经网络模型。实验结果表明，该模型对常见算法基准(包括排序、加法和乘法)具有很强的推理能力。我们在具有挑战性的LAMBADA问答数据集上评估了我们的模型，并将其与使用注意力的最先进模型进行了比较。我们的模型达到了具有竞争力的精度，并且已经扩展到包含超过十万个元素的序列。

为什么要提出Shuffle-Exchange神经网络介绍

在算法任务中，每个输出符号通常依赖于每个输入符号，对远程信息的聚合甚至更为重要。算法综合的目标是从给定的输入-输出实例中得到一个算法，这些输入-输出实例通常是作为序列给出的。由于需要处理无限长度的序列，算法任务尤其具有挑战性。此外，泛化也起着重要的作用，因为训练通常是在短序列上进行，而在长序列上进行测试。目前最好的神经网络结构不能很好地适应序列长度。其中很大一部分使用了依赖于序列长度的二次复杂度的注意机制。这些模型可以很容易地在512左右的长度上进行训练，但在较长的序列上就会变得非常慢，而且内存不足。
在序列算法任务方面，在各种可学习任务和更长的序列泛化方面，最佳架构是改进的NeuralGPU(FreivaldsandLiepins,2018) NeuralGPU(Kaiser and Sutskever, 2015)。它有 $O(n)$ 个卷积层，每个层执行 $O(n)$ 个操作，其中n是输入长度。这种体系结构可以表示算法的运行时间 $O(n_2)$ ,但学习更快的算法,例如复杂的 $O (nlogn)$ ,需要一个全新的方法，那......就是作者提出的牛逼方法喽~

什么是Shuffle-Exchange网络

将消息从多个源路由到多个目的地是计算机网络领域的一个研究热点，在计算机网络中，已经开发了几种用于连接两组设备的稀疏体系结构。作者受此启发，Shuffle-Exchange具有规则的分层结构，最适合作为神经网络的原型。Shuffle-Exchange由Shuffle和Exchange两个阶段的重复应用组成。下图则为该网络的架构图：

如上图，首先是Exchange阶段，元素被分成相邻的对，每对通过一个开关。该开关包含选择将哪个输入路由到哪个输出的逻辑。接下来是Shuffle阶段(如图中的箭头所示)，其中根据完全Shuffle排列对消息进行排列。在这种排列中，目标地址是源地址的循环位移位(左或右)。2k消息路由网络包括k个交换阶段和k - 1个Shuffle阶段。但是，但是Shuffle-Exchange网络的吞吐量是有限的，可能不可能同时路由多个消息。更好的为多个消息路由设计是Beneš网络(见下图)。

Beneš网络是由连接Shuffle-Exchange网络镜像copy2。镜像拷贝是通过反转目标地址计算中位偏移的方向得到的。Beneš网络2 k−1交换阶段和2 k−2洗牌阶段。这样的网络可以在任何输入到输出的排列中路由2k消息。

Shuffle-Exchange模型结构介绍

该网络模型结构由交替Switch层（这里的Switch层和上面说的Exchange层是一个意思）和Shuffle层组成。

在开关层中，我们将单元划分为相邻的非重叠对，并将开关单元应用于每对3。开关单元类似于门控循环单元(GRU)，但它有两个输入[s1,s2]和两个输出[s1,s2, o]。它包含两个重置门，每个输出对应一个重置门。复位门主要负责单位的权力，这是很重要的，每个输出使用一个单独的复位门为单位产生不相关的输出。从技术上讲，创建对的实现方法是将序列s重新构造为两个更短的序列，其中每个新单元将沿着特征维度连接两个相邻的单元[s1,s2]。开关单元的定义如下：

Shuffle层排列的细胞可根据bit旋转排列,即[x] = s (x, k)旋转,在旋转(x, k)执行循环移位x的一个位置,其中x是当作一个长度的二进制数k。左旋转中使用的第一部分Beneš网络,在第二个(不同之处是重要的如果我们应用旋转的另一种方式)。Shuffle层没有可学习的参数。

整个网络以Beneš网络模式连接Switch、Shuffle这两层。更深层次的体系结构可以按照Beneš网络的形式叠加多个block。在这种情况下，将省略后续块的第一个开关层，并立即从一个Shuffle层开始。

Double Kill

TILE: OmniNet: A unified architecture for multi-modal multi-task learning
Contributor : IBM Watson
Paper: https://arxiv.org/pdf/1907.07804v1.pdf
Code: https://github.com/subho406/OmniNet

文章摘要

Transformer是一种广泛使用的神经网络结构，特别是用于语言理解。本文会介绍一个扩展的、统一的体系结构，它可以用于涉及各种模式的任务，如图像、文本、视频等。提出了一种时空缓存机制，除了对应于时间输入序列的隐藏状态外，还可以学习输入的空间维度。该体系结构使得单一模型支持具有多种输入模式的任务以及异步的多任务学习，因此我们将其称为OmniNet。

OmniNet介绍

我们提出了一个统一的体系结构，即OmniNet，以支持学习具有多个输入域的多模式任务，并支持针对任何一组任务的通用多任务。OmniNet体系结构由多个子网络(称为外围网络)组成，这些子网络连接到一个称为中枢神经处理器(CNP)的公共中枢神经网络，如下图所示：

每个外围网络用于将特定于域的输入编码到特征表示中。在这项工作中，我们描述了图像、文本和视频外设。根据任务的不同，可以添加更多，比如语音外设。外围网络的输出表示总是一个时空张量，其中t和s分别为输入的时空维数，为输入到中枢神经处理器的模型维数。
中央神经处理器(CNP)对每个输入域对应的外围网络生成的时空表示进行处理。CNP使用完全基于注意力的编解码器[23,24,25]模型进行序列转换，类似于转换器架构，这是最先进的多语言建模任务。在编码阶段,CNP实现了一个通用的函数首先处理和存储输入的时空表达,其中是外围网络产生时空的张量，其中是域id以及是CNP支持的最大数量。函数被多次调用，每次调用对应的外围设备的多模式输入。在解码阶段,函数用于解码softmax概率预测,其中是目标输出右移一个时间步,N是输出序列的长度;任务id,支持的任务总数。解码步骤类似于[paper：Attention is all you need]，经过修改，在空间和时间缓存上包含了两步注意机制。

实验结果

Triple Kill

TILE: Learning Representation Mapping for Relation Detection in Knowledge Base Question Answering
Contributor :国家新型软件技术重点实验室（南京）
Paper: https://arxiv.org/pdf/1907.07328v1.pdf
Code: https://github.com/wudapeng268/KBQA-Adapter

文章摘要

关系检测是包括知识库问答在内的许多自然语言过程应用的核心步骤。目前得到较高的准确度，是因为关系已在训练数据中。当应对不可见的关系的时候，表现将迅速下降。造成这一问题的主要原因是不可见关系的表示形式缺失。为此本文提出了一种简单的映射方法——表示适配器(representation adapter)，该方法基于先前学习的关系嵌入来学习可见和不可见关系的表示映射。利用对偶目标和重构目标来提高映射性能。我们重新组织了流行的简单问题数据集来揭示和评估检测不可见关系的问题。实验表明，本文方法要优于当前比较的一些方法。

本文主要看点

1、我们不是仅仅从训练数据中学习关系表示，而是采用了从覆盖范围更广的整个知识图中学习表示的方法。
2、提出了一种映射机制，称为表示适配器，或者简单地称为适配器，以将学习到的表示合并到关系检测模型中。我们从适配器的非平凡训练的简单均方误差损失入手，提出将对抗性和重构目标结合起来以改进训练过称。
3、将简单的问题集重新组织为简单的问题平衡，分别对可见和不可见关系的性能进行评估
4、实验表明，我们提出的方法在检测未知关系方面取得了很大的进步，同时与现有的检测方法保持了一定的可比性。

Representation Adapter介绍

Representation Adapter架构图如下：

其中，左边是基本适配器;中间是对抗性适配器;右边是带重构损耗的适配器。

Representation Adapter相关性检测应用

我们将适配器集成到最先进的关系检测框架中(Yu et al.， 2017, hierarchy Residual BiLSTM (HR-BiLSTM))。
该框架使用问题网络将问题句编码为矢量 $q_f$ ，使用关系网络将关系编码为矢量 $r_f$ 。这两个网络都是基于Bi-LSTM和最大池操作。然后引入余弦相似度来计算 $q_f$ 与 $r_f$ 之间的距离，从而确定检测结果。我们的适配器是关系网络中用来增强该框架的一个附加模块。如下图所示：

其中使用适配器的KBQA基线。共享的Bi-LSTM用相同的颜色标记。适配器映射依赖于特定任务的关系，而特定任务又依赖于相应的网络。

实验结果

1、关系检测在SQB数据集上的微观平均精度和宏观平均精度。

2、采用不同的关系检测模型对整个KBQA系统的微平均精度进行了测试。

3、在测试不可见集中，我们计算了该预测率的宏观平均值。

ACED

GitHub论文合集

最后编辑于：2020.01.18 00:11:18

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,924评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,781评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,813评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,264评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,273评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,383评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,800评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,482评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,673评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,497评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,545评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,240评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,802评论 3赞 304
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,866评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,101评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,673评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,245评论 2赞 341

「自然语言处理(NLP)论文推送」第二弹（含源码）805

引言

FirstBlood

文章摘要

为什么要提出Shuffle-Exchange神经网络介绍

什么是Shuffle-Exchange网络

Shuffle-Exchange模型结构介绍

Double Kill

文章摘要

OmniNet介绍

实验结果

Triple Kill

文章摘要

本文主要看点

Representation Adapter介绍

Representation Adapter相关性检测应用

实验结果

ACED

推荐阅读更多精彩内容