240 发简信
IP属地:北京
  • 240
    近端策略优化算法(PPO)

    首先我们回顾一下“策略梯度方法(PG)”和“信赖域策略优化(TRPO)”。1.策略梯度方法(PG)策略梯度方法通过计算策略梯度的估计并利用随机梯度上升算法来工作。 最常用的梯...