俱往矣，AI可以从Transformers模型始（二）

Transformer是一种基于注意力机制的深度学习模型，它在NLP领域取得了革命性的进展。该模型的主要特点（可以说一些关键术语）：
1、自注意力机制（Self-Attention）：该机制使得模型能够捕捉到序列内部的长距离依赖关系。
2、多头注意力（Multi-Head Attention）：使用此机制来增强模型对不同位置信息的捕捉能力。
3、位置编码（Positional Encoding）：引入位置编码，将序列中每个元素的位置信息编码到模型输入中，以帮助模型理解单词在序列中的位置。
4、编码器-解码器架构：编码器负责处理输入序列，解码器负责生成输出序列。
5、层次结构：Transformer模型通过堆叠多个编码器和解码器层来提高模型的性能。

image.png

Self-Attention（自注意力机制层）
自注意力机制（Self-Attention）能很好地解决RNN网络固有的计算效率不高和长程依赖问题，它允许模型并行处理整个序列，有效地捕获序列中的长距离依赖。这一机制的引入，让Transformer模型成为了一项重大技术突破，逐渐成为了如今NLP的主流研究方向，又影响到计算机视觉（CV）研究领域。自注意力机制，又称内部注意力机制，顾名思义，是一种将单个序列的不同位置关联起来以计算同一序列的表示的注意机制。注意力机制主要体现在相似度系数上，其反映对于一次查询当前资源中不同数据的重要程度，通过softmax等形式计算出该系数；实现聚焦重要数据，忽略不相关数据的注意力作用。

传统的注意力机制发生在Target的元素Query和Source中的所有元素之间，其权重的计算需要Target来参与。即在Encoder-Decoder模型中，Attention权重的计算不仅需要Encoder中的隐状态而且还需要Decoder中的隐状态。而自注意力机制中不是Target和Source之间的Attention机制，而是Source内部元素之间或者Target内部元素之间发生的Attention机制。如在Transformer中在计算权重参数时，将文字向量转成对应的KQV，只需要在Source处进行对应的矩阵操作，用不到Target中的信息。
就是说自注意力机制和注意力机制的区别就在于，注意力机制的查询（Query）和键（Key）是不同来源的，而自注意力机制的查询（Query）和键（Key）则都是来自于同一组的元素，因此，自注意力机制也被称为内部注意力机制（intra-attention）。自注意力机制的优点是感受野大；缺点是需要大数据。
自注意力机制其实就是论文中所指代的“Scaled Dot-Product Attention“。论文作者说注意力机制可以描述为将query和一系列的key-value对映射到某个输出的过程，而这个输出的向量就是根据query和key计算得到的权重作用于value上的权重和。

Multi-head Attention（多头注意力机制）
多头注意力机制的架构（Multi-Head Attention）图，可以看到（V, K, Q）三个矩阵通过h个线性变换（Linear），分别得到h组（V, K, Q）矩阵，每一组（V, K, Q）经过Attention计算，得到h个Attention Score并进行拼接（Concat），最后通过一个线性变换得到输出，其维度与输入词向量的维度一致，其中h就是多头注意力机制的“头数”。在多头注意力机制中，其输出序列的长度与输入的Query序列的长度一致；在接受的三个序列Query、Key、Value中，其Key与Value是键值对，序列长度一定相同，Query序列长度可以与Key、Value长度不同。

所谓的多头注意力机制其实就是将原始的输入序列进行多组的自注意力处理过程；然后再将每一组自注意力的结果拼接起来进行一次线性变换得到最终的输出结果。

因为一段文字可能蕴含了比如情感维度、时间维度、逻辑维度等很多维度的特征，为了能从不同的维度抓住输入信息的重点，就又引入了多头注意力机制(multi-head attention)。所谓多头注意力，简单说就是把输入序列投影为多组不同的Query，Key，Value，并行分别计算后，再把各组计算的结果合并作为最终的结果，通过使用多头注意力机制，可以更好地捕获来自输入的多维度特征，提高模型的表达能力和泛化能力，并减少过拟合的风险。多头注意力机制的目的是为了从多个维度捕捉提取更多的特征，从多个“头”得到不同的Self-Attention Score，提高模型表现。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342

俱往矣，AI可以从Transformers模型始（二）

推荐阅读更多精彩内容