10
3
5859
1
记录强化学习应用在MOBA类游戏场景下会遇到的一些问题,希望可以为大论文启发一些新的思路出来 Imitation learning 提纲 SL的...
Background 多线程/多进程/分布式编程在深度学习/强化学习的应用中是很常见的问题,本文的问题就是在实现DPPO的时候遇到的。 在开始复...
在公司看文档,对用到的一些知识做简单梳理;大部分idea来源于DeepMind或OpenAI PPO的目标函数 PPO有两种目标函数形式,第一种...