论文阅读_大语言模型_Llama2

英文名称: Llama 2: Open Foundation and Fine-Tuned Chat Models
中文名称: Llama 2：开源的基础模型和微调的聊天模型
文章: http://arxiv.org/abs/2307.09288
代码: https://github.com/facebookresearch/llama
作者: Hugo Touvron
日期: 2023-07-19
引用次数: 110

1 读后感

这是一篇77页的论文，正文也有36页，让人望而却步。整体分成：Introduction，Pretraining，Fine-tune，Safety，Discussion，RelateWork, Conclusion几部分，如果没有时间，看看前三个部分，大概20页左右也就差不多了。

产出的模型从7B到70B参数，其成果除了基本的 LLAMA-2 模型，还有精调的 LLAMA 2-CHAT 模型，其精调模型与 ChatGPT (3.5) 性能相当，可作为闭源模型的替代品，且 70B 的体量也是可接受的。

在基础模型方面，文章中没有涉及很新的算法，主要偏重工程化，通过实验，产生一些经验性的结论，比如什么情况下会 over-fitting，对于 SFT 和 RLHF 标注应该如何分配资源，如何设置模型超参数，用蒸馏方法利用大模型训练小模型等等。

之前开源模型对 RLHF 的具体方法讨论不多，而本文算法调整主要在强化学习部分，比如在RLHF中如何训练奖利模型以更好地利用偏好标注；选择PPO和Rejection Sampling作为强化学习的策略优化网络参数。如果你对 RLHF 具体实现感兴趣，比较推荐看看这篇文章。

2 介绍

之前的开源模型效果往往与GPT-3相当，而像ChatGPT、BARD 和 Claude 这些封闭的大在模型经过 RLHF 精调，更符合人类偏好。精调往往需要巨大的算力和人工标注成本，且常是不透明且不易复制的，这限制了社区推进人工智能对齐的进展，文章致力于改进此问题。

文章产出包括：

Llama 2 ：Llama 1 的更新版本，使用新的公开数据组合进行训练。还将预训练语料库的大小增加了 40%，将模型的上下文长度加倍，并采用分组查询注意力机制。最终发布具有 7B、13B 和 70B 参数的 Llama 2 基础模型。
Llama 2-Chat：Llama 2 的微调版本，针对对话用例进行了优化。也发布了具有 7B、13B 和 70B 参数的模型。

3 预训练

预测训练使用了从 Touvron（2023 原 Llama论文）中描述的预训练方法。使用优化的自回归Transformer，又使用了：更稳健的数据清理，更新了数据混合，增加了 40% Token 进行了训练，将上下文长度加倍，并使用分组查询注意力 (GQA) 来提高大模型的推理可扩展性。表-1 比较了新 Llama 2 与 Llama 1。

从图-2中可以看到，纵轴是 Loss，当训练数据增加到2T时，模型仍在优化：

模型使用 A-100 80G 集群训练，表-2展示了模型使用的算力和碳排：

由于模型最终被发布，后续模型可以基于该模型调优，从这个角度看，开放的模型也可以算是减少了大模型的全球碳排。

在评测方面，文章对比了主流的开源模型和闭源模型，主要在：编码，常识推理，世界知识，阅读理解，数学，聚合评测（如：MMLU，BBH，AGI Eval）方面进行了评测：

可以看到，Llama-2 各项结果明显优于当前的开源模型，和闭源模型相比有差异。请注意：这是预训练的版本，后面还会继续比较 fine-tune 之后的结果。

4 精调

Llama 2-Chat 主要使用了对齐技术（包括 SFT 和 RLHF）需要大量的计算和标注资源。另外，还使用了 Ghost Attention (GAtt) 注意力机制来优化多轮对话。

4.1 SFT 有监督微调

SFT supervised fine-tuning 有监督微调，也叫作 instruction tuning 指令微调。一对标注数据一般包含一个提示和一个答案，训练时只对答案部分进行反向传播调优网络。一开始使用了公开的指令调优数据；在实验过程中发现，高质量的标注数据可有效提升模型效果，不需要太多标注，只需要上万条高质量数据即可达到很好效果，最终使用 27,540 个标注数据。从而把更多精力用于 RLHF 标注。

4.2 RLHF 人类反馈的强化学习

人类反馈的强化学习 RLHF（Reinforcement Learning with Human Feedback）用于对齐模型行为和人类偏好，简单地说，就是让标注者选择他们喜欢的两个模型输出中的哪一个。随后用标注数据训练奖励模型，该模型用于后续对偏好进行预测。

4.2.1 人类偏好的数据收集

标注过程如下：首先要求注释者编写提示，然后根据要求在两个模型的返回结果之间进行选择。除了选择哪个更好，还要求他们标记对更喜欢答案的喜爱程度：明显更好，更好，稍微更好，或者可以忽略/不确定。

标注关注答案”有用性“和”安全性“，在安全方面，比如：用户提问“怎么做炸弹”返回的答案就可能是不安全的。安全性标注包括三个选项：优选答案安全另一个不安全；答案都不安全；答案都安全。这里认为人们会优选更安全的答案。

表-6 展示了标注的数据和其它开源数据集的比较结果。可以看到：摘要和在线论坛数据的提示通常较长，而对话式的提示通常较短。与现有的开源数据集相比，文中收集的偏好数据具有更多的对话轮次，并且平均时间更长。

4.2.2 奖励模型

奖励模型的输入是：提示、模型响应（包括之前的上下文），输出是标量分数以指示模型生成的质量（有用性和安全性）。利用模型响应分数作为奖励，在后续的 RLHF 期间优化 Llama 2-Chat。

为了解决有用性和安全性有时相互抵消的问题，实验训练了两个单独的奖励模型，一个针对有用性进行优化，另一种针对安全性进行优化。另外，使用预训练的聊天模型初始化奖励模型，使模型都受益于预训练中获得的知识；模型架构和超参数与预训练语言模型相同，只是将下一个标记预测的分类头替换为用于输出标量奖励的回归头。

最终训练模型时使用了开源标注数据和新的标注数据。

从图-6中可以看到，在逐步收集数据过程中模型性能的变化：更多的数据和更大的模型会提高准确性，如果有更多数据，模型性能还可能进一步提升。后续实验也证明，在其他条件相同的情况下，奖励模型的改进可以直接转化为 Llama 2-Chat 的改进。

4.2.3 迭代微调

随着得到更多批次的偏好数据标注，通过训练更好的奖励模型并收集更多提示。从逐步训练迭代模型：从 RLHF-V1 ... 到 RLHF-V5。这里使用了两种算法：近端策略优化 PPO 和拒绝采样微调 Rejection Sampling fine-tuning。

在 RLHF (V4) 之前，仅使用拒绝采样微调，之后，将两者结合起来，在再次采样之前在生成的拒绝采样检查点之上应用 PPO。从而在探索和当前最优策略之间取得平衡。
图-8展示了温度的影响：更高的温度将对更多样化的输出进行采样，最佳温度是 T ∈ [1.2, 1.3]。

拒绝采样微调
从模型中采样 K 个输出，并根据奖励选择最佳候选者，然后使用选定的输出进行梯度更新。对于每个提示，奖励分数最高的样本被认为是新的金标准。

PPO 近端策略优化
PPO的优化目标是：最终通过训练模型得到策略 π，以最大化奖励 R。

$\arg \max _{\pi} \mathbb{E}_{p \sim \mathcal{D}, g \sim \pi}[R(g \mid p)]$

其中 R 是奖励，D 是数据集，p是prompt，通过策略 π 产生 g。

最终的奖励，还考虑了当前策略与初始策略的差异作为惩罚项（使用KL散度计算），以避免过大的调整，保证了训练的稳定性。

$R(g \mid p)=\tilde{R}_{c}(g \mid p)-\beta D_{K L}\left(\pi_{\theta}(g \mid p) \| \pi_{0}(g \mid p)\right)$

另外，这里的奖励函数 Rc 综合了可用性和安全性。

4.3 多轮一致性

文中提出了 Ghost Attention （GAtt），这种微调使数据更关注多轮对话，而不会快速忘记早期的内容。请注意：这里的 Attention 不是对模型 Transformer 结构中注意力的优化。该方法让模型更注重第一轮对话，比如：请扮演XXX，用法语回答。其效果如下，右侧使用了 Gattr，可以看到，它更容易接受初始设置的”用表情回答“。

4.4 RLHF 结果

图-11 展示了 Llama 2-Chat 与 ChatGPT 相比的获胜率百分比，多次迭代微调后的演变结果。左侧图的判断标准是文中的奖励模型，可能对文中的模型有利，右侧的判断标准是GPT-4，更为中立。RLHF-V3 后文中模型在两个轴上都优于 ChatGPT（无害性和有用性 >50%）。

图-12展示了 Llama-2 各个版本与其它模型在人工评测方面的对比结果，从最右图可以看到，Llama-2 70B-chat 与 ChatGPT gpt-3.5-turbo-0301 效果相当，或者说已经超过了 ChatGPT 3.5。（图中的 tie 指平局率）

5 参考

论文阅读_近端策略优化_PPO

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,519评论 5赞 468
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,842评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,544评论 0赞 330
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,742评论 1赞 271
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,646评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,027评论 1赞 275
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,513评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,169评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,324评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,268评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,299评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,996评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,591评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,667评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,911评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,288评论 2赞 345
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,871评论 2赞 341