关键词:大语言模型,LLaMA 内容摘要 LLaMA大模型背景介绍 LLaMA网络结构相比Transformer的改进 LLaMA中文化Atom...
关键词:大语言模型,LLaMA 内容摘要 LLaMA大模型背景介绍 LLaMA网络结构相比Transformer的改进 LLaMA中文化Atom...
关键词:GPT,预训练模型 前言 在前文GPT系列:GPT-2模型结构简述和实践[https://www.jianshu.com/p/cf8dd...
关键词:Transformer,Beam Search 前言 在前文...中介绍了Transformer在预测阶段逐位进行单词翻译的过程,采用了...
关键词:Transformer,注意力机制,Decoder解码器 前言 在之前系列的篇章的已经介绍了Transformer的Encoder编码器...
摘要:CRF,条件随机场,序列标注,命名实体识别 内容摘要 NER任务简介 NER中引入CRF的目的 CRF中的学习参数 CRF的损失函数 CR...
关键词:Bert,预训练模型,微调 内容摘要 Bert源码工程介绍 MRPC任务介绍 输入层,数据格式要求 Bert模型层,transforme...
摘要:Bert,Transformer,预训练模型 内容摘要 Bert起源背景简介 Bert、Transformer、预训练模型、微调的关系 B...
关键词:Transformer,位置编码 内容提要 位置编码的目的 位置编码的多种方式 从代码理解sin-cos位置编码特性 sin-cos位置...
关键词:Transformer,残差连接 内容目录 残差连接的历史由来 Transformer中的残差连接 深层网络的问题代码复现 深层网络的问...
关键词:Transfomer,self attention Transformer Self Attention的作用 Transformer引...