LLM - 专题 - 简书

投稿

LLM

收录了10篇文章 · 2人关注

ReFT论文浅读
ReFT: Reasoning with Reinforced Fine-Tuning[https://arxiv.org/abs/2401.0...

躺不平的NLPer 0 0
DeepSeekMath论文浅读(GRPO)
Group Relative Policy Optimization(GRPO) ，从DeepSeekMath[https://arxiv.or...

躺不平的NLPer 0 0

PPO（Proximal Policy Optimization）
PPO（Proximal Policy Optimization）是一种广泛使用的强化学习算法，它通过优化策略来训练智能体，旨在提升训练过程的稳...

躺不平的NLPer 0 0
rStar论文浅读
来自：Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers[https://...

躺不平的NLPer 0 0
位置编码（Positional Encoding）
在大语言模型（LLM）中，位置编码（Positional Encoding）是用于表示输入序列中词汇或标记相对位置的技术。由于Transform...

躺不平的NLPer 0 0
Clustering and Ranking（CaR）代码框架解读
论文和仓库论文地址[https://arxiv.org/abs/2402.18191]官方代码[https://github.com/Iron...

躺不平的NLPer 0 0
自动提示工程（Auto Prompt）LMOps代码复现和解读
ProTeGi: Prompt Optimization with Textual Gradients是一篇自动基于LLM的自动提示工程，非常感...

躺不平的NLPer 0 0

多语言-分词工具
常用的分词工具 jieba 安装： pip install jieba jieba.lcut(text) THULAC pip install ...

躺不平的NLPer 0 0
deepspeed指定GPU
单节点全部卡：--master_port=25684 --num_gpus=4 单节点部分卡：--include localhost:1,2,3...

躺不平的NLPer 0 1
解决： 'DeepSpeedCPUAdam' object has no attribute 'ds_opt_adam'
deepspeed运行大模型时报错： ```python Exception ignored in: <function DeepSpeedCP...

0.2 躺不平的NLPer 0 1