chatGPT 学习系列笔记

本文参考的博客链接:

https://franxyao.github.io/blog.html
作者:符尧,yao.fu@ed.ac.uk,爱丁堡大学 (University of Edinburgh) 博士生,本科毕业于北京大学
https://mp.weixin.qq.com/s/60_h5biTOlBAa3Rt2tMn6A
https://mp.weixin.qq.com/s/VYv8BRgGnp9ZTuXxaSuFwg

chatGPT的出现给大家带来了很多惊喜,展示了很多语言能力:

  1. 文本生成的能力prompt learning
  2. in-context learning(上下文学习) 根据给定任务的几个样例,然后为新的测试用例生成解决方案。这个是GPT3的重点。而不是去关注语言模型 的能力
  3. 常识和世界知识
  4. chain-of-thought(思维链)的能力

这些能力一方面来源大模型的参数规模,另一方面来源于GPT3系列模型采用了除了自监督语言预训练任务外的一些开发模型思维推理能力的预训练任务。个人感觉chatGPT之所以有这么惊人的表现,是把预训练任务从关注语言转移到了思维能力上,不单单只是传统语言模型的字符补全,上下文。

一、初代GPT-3

初代GPT-3的参数规模达到了1750亿,它在在有3000亿单词的语料上进行了预训练。
初代的GPT-3展示了三种能力:
(1)语言生成:遵循提示词(prompt),然后生成补全提示词的句子,这个语言生成的能力来源于语言预训练任务中对语言的建模。
(2)世界知识:包括事实性知识 (factual knowledge) 和常识 (commonsense)。GPT3系列模型的参数规模是 1750 亿,给了模型存储庞大预训练语料中各种知识的能力。
(3)上下文学习 (in-context learning): 遵循给定任务的几个示例,然后为新的测试用例生成解决方案。GPT-3虽然是个语言模型,但它的论文几乎没有谈到“语言建模”,而作者将他们全部的写作精力都投入到了对上下文学习的愿景上,这才是 GPT-3的真正重点。
虽然GPT-3已经足够庞大,但是从其论文实验结果中看出,在一些任务上的表现还不如T5(参数量110 亿),可以说远远不及chatGPT展示出的能力。OpenAI则在GPT-3的基础之上,设计了新的训练任务,使得GPT-3一步步演化到chatGPT。

1.1数据

GPT-3使用的数据集
1.1.1 Common Crawl数据集

Common Crawl数据集提供了包含上百亿网页数据的免费数据库,包含原始网页数据、元数据提取和文本提取。常见的爬行数据存储在Amazon Web服务的公共数据集和遍布全球的多个学术云平台上,拥有PB级规模,常用于学习词嵌入。但原始的Common Crawl数据集存在着很多噪音,会印象模型的训练质量, 所以OpenAI对数据集进行过滤清洗之后才用于GPT-3的训练。使用common crawl 2016年到2019年的数据,这些数据清洗前有45TB的压缩明文,经过过滤后数据集大小为570GB,包含4000亿个字节对级别的token。(另外谷歌对于Common Crawl数据集进行清洗后得到的数据集称为“Colossal Clean Crawled Corpus”(C4)数据集,用于T5模型的训练)。Common Crawl

1.1.2 WebText2数据集

WebText2数据集是一个多样化的文本集合,它从互联网收集了的大约 800 万个网页,包括各种各样的来源,如新闻文章、网站和在线论坛。是 OpenAI 专门为训练语言模型而创建。论元链接: Language Models are Unsupervised Multitask Learners

1.1.3 Books数据集

关于Books部分数据来源没有进行描述,不过可以看到,总体来说GPT-3的训练数据来源十分多样,接触了广泛的语言风格和写作风格,能够更好的理解和模仿人类语言。

1.2 模型规模

GPT系列模型的大参数量,给了模型具有思考能力的可能性。在chain-of-thought开山论文中有张图,对于GSM8K数学应用题任务,chain-of-thought的任务模式,只有在当模型参数量到达了一定规模之后,才会对最终的任务性能有所提升。说明这种chain-of-thought的能力,只能在大模型中才能够获得,而不会在小模型中存在。从图中看出,只有当模型参数量大到一定程度之后,才具备chain-of-thought的能力,称为Emergent Ability,涌现能力

Wei. et. al. 2022. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 针对GSM8K数据集,这是一个小学难度水平的数学应用题数据集

二、演化历程

GPT系列模型的演化历程

GPT-3初代发布于2020.07。在GPT-3后续的训练中,主要使用了三种类型的训练,分别是:代码训练、指令微调 (instruction tuning)和基于人类反馈的强化学习 (reinforcement learning with human feedback, RLHF)。初代GPT-3分别经过代码训练和指令微调得到了初代Codex(2021年7月)和初代instructionGPT模型(2022年3月)。code-davinci-002则是经过语言训练、代码训练和指令微调得到的模型,从此GPT模型进入了GPT-3.5系列;code-davinci-002再经过有监督指令微调训练得到了text-davinci-002模型,二者的区别在于,text-davinci-002模型降低了模型的上下文学习能力,但增强的模型的零样本学习能力。最后是在2022年11月发布的text-davinci-003和 ChatGPT,是使用的RLHF训练得到的两种变体,他们牺牲了上下文学习能力换来了更好的零样本学习能力和建模对话历史的能力。

初代GPT3,在一些任务上很强,但是在另外一些任务上甚至不如T5,但是具有很大的潜力(模型参数量大)。后续通过代码训练指令微调 (instruction tuning)基于人类反馈的强化学习 (reinforcement learning with human feedback, RLHF) 解锁,具备上述强大的4种语言能力。

(1) 初代GPT-3模型通过预训练获得生成能力世界知识in-context learning上下文学习
(2) 然后通过instruction tuning的模型分支获得了遵循指令能泛化到没有见过的任务的能力。
(3) 经过代码训练的分支模型则获得了代码理解的能力,作为代码训练的副产品,模型同时潜在地获得了复杂推理的能力。结合这两个分支,code-davinci-002似乎是具有所有强大能力的最强GPT-3.5模型。
(4) 接下来通过有监督的instruction tuning和 RLHF通过牺牲模型能力换取与人类对齐,即对齐税RLHF 使模型能够生成更翔实和公正的答案,同时拒绝其知识范围之外的问题。

三、代码训练、指令微调 (instruction tuning)

经过代码训练和指令微调后的几个模型,相比初代GPT-3,表现除了4种和初代模型不同的重要能力:
(1)准确响应人类指令:现在的模型会针对指令 / 提示词生成更合理的答案,而不是相关但无用的句子。这个能力是指令微调的直接产物。
(2)泛化到没有见过的任务:当用于模型微调的指令数量超过一定的规模时,模型就可以自动在从没见过的新指令上也能生成有效的回答。这点也能在其他大模型T0、Flan 和 FlanPaLM的论文中得到验证。
(3)代码生成和代码理解:这个能力很显然,因为模型用代码训练过。
(4)利用思维链 (chain-of-thought) 进行复杂推理:思维链是在生成答案之前,生成问题的解决思路和步骤,最后再生成答案,提升解决复杂推理问题的能力。这个能力很有可能是经过代码训练得到的,初代 GPT-3和 经过指令微调的text-davinci-001模型思维链推理的能力很弱甚至没有。而经过代码训练的Codex和PaLM(有5%的代码训练数据)具有思维链能力。从直觉上来说,面向过程的编程跟人类逐步解决任务的过程很类似,面向对象编程跟人类将复杂任务分解为多个简单任务的过程很类似,这一定程度上提升了模型的推理能力。

3.1 代码训练

codex或者称text-davinci-002,是通过GPT3在代码上训练得到的模型,同时CodeX也是Github Copilot代码补全工具背后的语言模型。
论文链接:
Evaluating Large Language Models Trained on Code
博客链接:
OpenAI CodeX

3.1.1 数据来源

数据来源是截至2020年5月以来在GitHub上公开托管的5400万个项目文件,其中包含179GB大小的1MB以下的Python文件。在最终使用过程中过滤掉了自动生成、平均代码行长度超过100或者最大行长度超过100的代码文件。最终用于训练的数据量有159GB。
评估数据集human-eval 164个用于测试手写编程问题,每个问题包括一个函数签名、文档字符串、正文和几个单元测试,平均每个问题有7.7个测试单元。

3.1.2 输入输出

在训练时,通过注释作为输入,代码作为输出进行。

3.1.3 评价指标

评价生成的代码是否正确,不能像其他文本生成任务一样通过BLEU得分,来判断和标准答案之间的文字差距,而是通过一个测试单元,判断生成代码的输出是否正确。

四、基于人类反馈的强化学习 (reinforcement learning with human feedback, RLHF)

加入基于人类反馈的强化学习,让模型的对话能力得到进一步提升,RLHF 触发的能力有:
(1)翔实的回应:text-davinci-003 的生成通常比 text-davinci-002长。ChatGPT 的回应则更加冗长,以至于用户必须明确要求“用一句话回答我”,才能得到更加简洁的回答。这是 RLHF 的直接产物。
(2)公正的回应:ChatGPT 通常对涉及多个实体利益的事件(例如政治事件)给出非常平衡的回答。这也是RLHF的产物。
(3)拒绝不当问题:这是内容过滤器和由 RLHF 触发的模型自身能力的结合,过滤器过滤掉一部分,然后模型再拒绝一部分。
(4)拒绝其知识范围之外的问题:例如,拒绝在2021 年 6 月之后发生的新事件(因为它没在这之后的数据上训练过)。这是 RLHF 最神奇的部分,因为它使模型能够隐式地区分哪些问题在其知识范围内,哪些问题不在其知识范围内。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容