西溪雷神 - 简书

IP属地：重庆

强化学习框架TRL源码——DPO及其变种
本篇解读DPOTrainer[https://github.com/huggingface/trl/blob/main/trl/trainer/...

1123 0 0
强化学习框架TRL源码——谈谈PPO和RLOO的异同
PPO(Proximal Policy Optimization)是rlhf经典算法，RLOO (REINFORCE Leave One-Out...

1112 0 0

强化学习框架TRL源码—— 关于奖励模型(reward model)
奖励模型(reward model)是强化学习的基础，如果说pretrain是背书的话，sft就是背题，而rlhf则可以看作是有老师批改作业的学...

1378 0 0
强化学习框架TRL源码——SFTTrainer之不足及解决
TRL[https://github.com/huggingface/trl/tree/main]是一个专门用于训练Transformer模型的...

0.1 1186 0 1
在古代，猎头猎一个人得多难
这是我之前发布在个人公众号厮杀取乐上的第一篇文章，因为一开始调子起得太高，导致我后面想继续更，却有点力不从心，所以公众号就一直处于停更状态（在朋...

0.1 1157 0 1
Bert系列（五）——中文分词实践 F1 97.8%(附代码)
一、前言 Bert源码解读完了，具体怎么用于自己的项目呢？在Bert系列（四）——源码解读之Fine-tune中，我说只要修改两个地方。重要的...

0.3 4735 2 5
Bert系列（四）——源码解读之Fine-tune
这是我们源码解读的最后一个部分了。fine-tune搞明白之后推断也就没必要再分析了，反正形式都是一样的，重要的是明白根据不同任务调整输入格式和...

1.3 26922 19 18

Bert系列（三）——源码解读之Pre-train
pre-train是迁移学习的基础，虽然Google已经发布了各种预训练好的模型，而且因为资源消耗巨大，自己再预训练也不现实（在Google C...

1.7 34043 15 30
Bert系列（二）——源码解读之模型主体
本篇文章主要是解读模型主体代码modeling.py。在阅读这篇文章之前希望读者们对bert的相关理论有一定的了解，尤其是transformer...

1.9 29425 6 34