大大大逗比 - 简书

发简信

大大大逗比

0
关注
0
粉丝
1
文章
879

字数
1

收获喜欢

IP属地：上海

深度强化学习之TRPO
TRPO要解决的问题在VPG策略迭代方法中，由于策略非凸，在策略迭代过程中会出现震荡、梯度悬崖等情况，难以收敛。TRPO用KL散度对相邻的策略...

1563 0 1

幸运四叶草

暂无个人介绍