240 发简信
IP属地:广东
  • 请问一下,从期望到似然函数J那一步是怎么化简的呢???:scream:

    Proximal Policy Optimization(PPO)算法原理及实现!

    这两天看了一下李宏毅老师的强化学习课程的前两讲,主要介绍了Policy Gradient算法和Proximal Policy Optimization算法,在此整理总结一下。...