【NLP模型】transformer：self-attention 自注意力机制

以下参考：https://www.jianshu.com/p/d2ae158fc9e5

attention：输入和输出进行比较，不同的输出对不同输入的关注不同。假设输出 $y_1$ 更关注输入 $x_1$ ， $y_2$ 更关注 $x_2$ ，那么在句子翻译中，语言 $x_1x_2 \cdots x_n$ 翻译成 $y_1y_2 \cdots y_n$ ，那么很可能认为单词 $x_1$ 翻译成 $y_1$ ， $x_2$ 翻译成 $y_2$ 。能够使模型捕捉有用信息。

self-attention：输入和输入自己进行比较（计算相似度），将输入的与上下文无关的词向量更新成上下文有关的词向量。解决了RNN等的短时记忆问题（即某个输入的词向量只与前几个输入有关）。

self-attention 计算过程

self-attention计算过程1：嵌入词向量，再由词向量依次线性变换出queries keys values

Thinking 和 Machines是同一组输入（同一句话）中的某两个输入（某两个单词）， $x$ 是上下文无关的词向量

1. 根据原词向量依次计算queries，Keys，Values

$Queries = X*W^Q$

$Keys = Queries*W^K$

$Values = Keys*W^V$

其中， $W^Q，W^K，W^V$ 是待训练的参数

self-attention计算过程2

2. 计算scores

$scores=\frac{q_i* keys}{\sqrt{d_{k}}}$
每个 $q_i$ 都算出n个score，即(1,n)的scores向量
其中， $d_k$ 是超参数（这里取64），为了让后面的计算中具有稳定的梯度

3. 计算（能句子中的长依赖关系）的新向量

$z_i=softmax（scores）*v$

对于某个词向量， $softmax（scores）$ 即为所有词向量对该词向量的权重，将这些权重分别乘以各向量得到新向量。运算为 $(1，n)*(n,1)$

那么最后能生成输入句子中单词与单词直接的权重矩阵，即注意力矩阵

注意力矩阵

self-attention的优点

传统的RNN，LSTM网络，需要按顺序进行序列计算，所以距离越远，关系越难捕捉。如果面对长句子，这种距离较远的依赖关系相比之下很难捕获到。而self-attention是针对句子中所有词两两计算，不存在距离长短的问题
相比循环网络，self-attention能并行计算

以下参考：https://mp.weixin.qq.com/s/RLxWevVWHXgX-UcoxDS70w

transformer总体框架

输入经过transoformer得到输出

transfromer内部结构总体框架

transformer模型框架

上述框架可抽象成Encoders和Decoders

transformer也是一个Encoder-Decoder模型

Encoders包含6个Encoder，Decoders包含6个Decoder
最后一个Encoder与6个Decoder建立连接，连接的意思是某种运算，例如RNN是使用中间语义 $c$ 作为中间连接

以最后的那个Encoder和其中一个Decoder的连接为例，继续探究Encoder和Decoder的内部
Encoder和Decoder都有Self-Attention和Feed Forward层，Decoder还有一个 Encoder-Decoder Attention层，注意，Decoder中的注意力层其实是masked self-attention