本篇解读DPOTrainer[https://github.com/huggingface/trl/blob/main/trl/trainer/...
PPO(Proximal Policy Optimization)是rlhf经典算法,RLOO (REINFORCE Leave One-Out...
奖励模型(reward model)是强化学习的基础,如果说pretrain是背书的话,sft就是背题,而rlhf则可以看作是有老师批改作业的学...
TRL[https://github.com/huggingface/trl/tree/main]是一个专门用于训练Transformer模型的...
这是我之前发布在个人公众号厮杀取乐上的第一篇文章,因为一开始调子起得太高,导致我后面想继续更,却有点力不从心,所以公众号就一直处于停更状态(在朋...
一、前言 Bert源码解读完了,具体怎么用于自己的项目呢?在Bert系列(四)——源码解读之Fine-tune中,我说只要修改两个地方。 重要的...
这是我们源码解读的最后一个部分了。fine-tune搞明白之后推断也就没必要再分析了,反正形式都是一样的,重要的是明白根据不同任务调整输入格式和...
pre-train是迁移学习的基础,虽然Google已经发布了各种预训练好的模型,而且因为资源消耗巨大,自己再预训练也不现实(在Google C...
本篇文章主要是解读模型主体代码modeling.py。在阅读这篇文章之前希望读者们对bert的相关理论有一定的了解,尤其是transformer...