Zichen_195d - 简书

IP属地：广东

Applying Expert Data into RL
方法一：先用expert数据(s,a)监督训练pre-train policy网络，再继续RL训练。但是需要expert数据量够大，不然容易陷...

0.2 638 1 1
RL Paper Review
导航 Learning to Navigate in Cites Without a Map, NIPS2018，DeepMind 本篇是Dee...

0.2 1031 0 1

IJCAI 2019
本次IJCAI之行共七天时间。前面三天是tutorial和workshop同时进行。后面四天是conference，每个时间段有多个sessio...

0.7 1716 0 2
动态规划
先考虑斐波拉契数列：对fib(6)递归树如下：递归实现：那么会多次调用函数求解common的子问题，比如fib(3), fib(2)。我们...

0.2 313 0 1
ws：OpenAI Deep RL
一什么是RL RL是trail and error来解决问题。 RL条件：你有一个sequential decision making问题，你...

0.2 300 0 1
class：deep RL UC Berkeley
用法总结 Imitation learning只能模仿所给的demonstration，并不能超越，而且没有应用到reward。对于Marko...

0.2 1204 0 1