240 发简信
IP属地:广东
  • Applying Expert Data into RL

    方法一:先用expert数据(s,a)监督训练pre-train policy网络,再继续RL训练。但是需要expert数据量够大, 不然容易陷...

  • RL Paper Review

    导航 Learning to Navigate in Cites Without a Map, NIPS2018,DeepMind 本篇是Dee...

  • IJCAI 2019

    本次IJCAI之行共七天时间。前面三天是tutorial和workshop同时进行。后面四天是conference,每个时间段有多个sessio...

  • Resize,w 360,h 240
    动态规划

    先考虑斐波拉契数列: 对fib(6)递归树如下: 递归实现: 那么会多次调用函数求解common的子问题,比如fib(3), fib(2)。我们...

  • Resize,w 360,h 240
    ws:OpenAI Deep RL

    一 什么是RL RL是trail and error来解决问题。 RL条件:你有一个sequential decision making问题,你...

  • Resize,w 360,h 240
    class:deep RL UC Berkeley

    用法总结 Imitation learning只能模仿所给的demonstration,并不能超越,而且没有应用到reward。 对于Marko...