神经网络拥有很强的预测能力,但它们往往无法知道自己的预测何时可能出错。与此密切相关的是out-of-distribution检测任务,在这个任务中,模型必须确定输入是否超出了...
神经网络拥有很强的预测能力,但它们往往无法知道自己的预测何时可能出错。与此密切相关的是out-of-distribution检测任务,在这个任务中,模型必须确定输入是否超出了...
BERT是在OpenAI GPT基础上发展起来的,是一种动态词向量技术。与传统静态词向量不同,动态词向量可以根据具体的上下文信息,动态生成词向量。对于一词多义等现象较为友好。...
作者:Petar Velickovic, Guillem Cucurull, Arantxa Casanova, Yoshua Bengio 来源: ICLR 2018 链接...
介绍 我们使用一些传统的监督学习方法做分类的时候,往往是训练样本规模越大,分类的效果就越好。但是在现实生活的很多场景中,标记样本的获取是比较困难的,这需要领域内的专家来进行人...
这篇文章与Self-Attention with Relative Position Representations和Convolutional Self-Attention...
Introduction 作者认为好的word representation模型应该同时兼顾两个问题:一是词语用法在语义和语法上的复杂特点;二是随着语言环境的改变,这些用法也...
这篇文章虽然写的是Image Recognition,但是它提出残差网络的思想在其他任务中也有很多应用,具有广泛的借鉴意义。 背景 随着网络结构的加深,带来了两个问题:一是v...
这篇文章作者是word2vec的作者,主要做的工作是paragraph vector,就是把paragraph变成一个固定长度的向量。其中大量的思路借鉴与CBOW和Skip-...
Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani. 2018. Self-Attention with Relative Pos...
文章认为普通的attention存在以下两个问题: 对整个序列使用加权和来计算注意力信息,会使相邻token的注意力被削弱。举个栗子:Amy eat a banana, an...
文章的motivation是将soft attention和hard attention结合起来,使其保留二者的优点,同时丢弃二者的缺点。具体地说,hard attentio...
文章主要介绍了两种Multi-dimensional Self-Attention机制和Directional Self-Attention机制。在此基础上设计了Direct...
Attention 表示个输入信息,给定任务相关的查询向量时,注意力函数为:其中为score function,表示在查询向量的注意力大小。 在绝大多数场景中,。 下表总结了...
词表示是自然语言处理的基础,一个好的词向量在很大程度上决定了后续任务的上限。本文是我最近学习该部分内容的笔记,主要参照的是基于神经网络的词和文档语义向量表示方法研究一文,穿插...
最近学习了一些词向量的表示方法,GloVe模型作为其中代表性的方法,自然也是花了不少功夫来学习的。这篇文章是我学习GloVe模型的笔记,大部分参照了理解GloVe模型以及加入...
今天收到之前投aaai2019论文的初审意见,3-4-4-5,所以被拒稿是显而易见了,rebuttal也不用写了😭有几个审稿人给的意见还不错,打算按照意见改改,目标12月份的...
Logistic Regression可能是绝大多数人入门分类所学到的第一个模型,我也不例外。Logistic Regression的函数空间由用下面模型来定义:下图是一个L...
从第一篇博文发出来之后,将近两个月没有写博客了,这段时间我主要利用假期撸了一篇论文。这不昨天刚投到aaai2019,今天就更博了。我撸的那篇文章是关于attention机制的...
这个Blog主要用来写Deep Learning的相关内容。本来想写在GithubPage上,想想还是算了。之前整过一个,挺麻烦的,搞了半天也没写几句话,全都在捯饬代码去了,...