ReFT: Reasoning with Reinforced Fine-Tuning[https://arxiv.org/abs/2401.0...

ReFT: Reasoning with Reinforced Fine-Tuning[https://arxiv.org/abs/2401.0...
Group Relative Policy Optimization(GRPO) ,从DeepSeekMath[https://arxiv.or...
PPO(Proximal Policy Optimization)是一种广泛使用的强化学习算法,它通过优化策略来训练智能体,旨在提升训练过程的稳...
来自:Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers[https://...
在大语言模型(LLM)中,位置编码(Positional Encoding)是用于表示输入序列中词汇或标记相对位置的技术。由于Transform...
论文和仓库 论文地址[https://arxiv.org/abs/2402.18191]官方代码[https://github.com/Iron...
ProTeGi: Prompt Optimization with Textual Gradients是一篇自动基于LLM的自动提示工程,非常感...
常用的分词工具 jieba 安装: pip install jieba jieba.lcut(text) THULAC pip install ...
单节点全部卡:--master_port=25684 --num_gpus=4 单节点部分卡:--include localhost:1,2,3...
deepspeed运行大模型时报错: ```python Exception ignored in: <function DeepSpeedCP...
专题公告
大模型相关实践经验