躺不平的NLPer

IP属地：浙江

DeepSeek-R1论文浅读
DeepSeek-R1-Zero：直接从DeepSeek-V3-Base进行强化学习RL训练，大概进行了数千步，就能展现出强大的性能和惊人的推...

62 0 0
ReFT论文浅读
ReFT: Reasoning with Reinforced Fine-Tuning[https://arxiv.org/abs/2401.0...

85 0 0
DeepSeekMath论文浅读(GRPO)
Group Relative Policy Optimization(GRPO) ，从DeepSeekMath[https://arxiv.or...

2390 0 0
PPO（Proximal Policy Optimization）
PPO（Proximal Policy Optimization）是一种广泛使用的强化学习算法，它通过优化策略来训练智能体，旨在提升训练过程的稳...

825 0 0
spacy安装和使用
spacy是一个python的自然语言处理的包，可以做词性分析、命名实体识别、依赖关系刻画，embedding的计算以及可视化。直接清华源安装...

220 0 0

rStar论文浅读
来自：Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers[https://...

38 0 0
位置编码（Positional Encoding）
在大语言模型（LLM）中，位置编码（Positional Encoding）是用于表示输入序列中词汇或标记相对位置的技术。由于Transform...

819 0 0