1958dfafb641 - 简书

发简信

3
关注
0
粉丝
0
文章
0

字数
0

收获喜欢

IP属地：北京

AMiFan

近端策略优化算法(PPO)
首先我们回顾一下“策略梯度方法（PG）”和“信赖域策略优化（TRPO）”。1.策略梯度方法（PG）策略梯度方法通过计算策略梯度的估计并利用随机梯度上升算法来工作。最常用的梯...

10447 0 3

暂无个人介绍