神经网络拥有很强的预测能力,但它们往往无法知道自己的预测何时可能出错。与此密切相关的是out-of-distribution检测任务,在这个任务中,模型必须确定输入是否超出了...

神经网络拥有很强的预测能力,但它们往往无法知道自己的预测何时可能出错。与此密切相关的是out-of-distribution检测任务,在这个任务中,模型必须确定输入是否超出了...
文章主要介绍了两种Multi-dimensional Self-Attention机制和Directional Self-Attention机制。在此基础上设计了Direct...
BERT是在OpenAI GPT基础上发展起来的,是一种动态词向量技术。与传统静态词向量不同,动态词向量可以根据具体的上下文信息,动态生成词向量。对于一词多义等现象较为友好。...
文章认为普通的attention存在以下两个问题: 对整个序列使用加权和来计算注意力信息,会使相邻token的注意力被削弱。举个栗子:Amy eat a banana, an...
文章的motivation是将soft attention和hard attention结合起来,使其保留二者的优点,同时丢弃二者的缺点。具体地说,hard attentio...
作者:Petar Velickovic, Guillem Cucurull, Arantxa Casanova, Yoshua Bengio 来源: ICLR 2018 链接...
介绍 我们使用一些传统的监督学习方法做分类的时候,往往是训练样本规模越大,分类的效果就越好。但是在现实生活的很多场景中,标记样本的获取是比较困难的,这需要领域内的专家来进行人...
Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani. 2018. Self-Attention with Relative Pos...
词表示是自然语言处理的基础,一个好的词向量在很大程度上决定了后续任务的上限。本文是我最近学习该部分内容的笔记,主要参照的是基于神经网络的词和文档语义向量表示方法研究一文,穿插...