写文章
注册
登录
首页
下载App
会员
IT技术
发简信
大大大逗比
0
关注
0
粉丝
1
文章
879
字数
1
收获喜欢
IP属地:上海
文章
动态
最新评论
热门
大大大逗比
深度强化学习之TRPO
TRPO要解决的问题 在VPG策略迭代方法中,由于策略非凸,在策略迭代过程中会出现震荡、梯度悬崖等情况,难以收敛。TRPO用KL散度对相邻的策略进行约束,防止策略变动过大造成...
1480
0
1
大大大逗比
幸运四叶草
暂无个人介绍
他关注的专题/文集/连载
他喜欢的文章