240 发简信
IP属地:上海
  • 深度强化学习之TRPO

    TRPO要解决的问题 在VPG策略迭代方法中,由于策略非凸,在策略迭代过程中会出现震荡、梯度悬崖等情况,难以收敛。TRPO用KL散度对相邻的策略...