240 发简信
IP属地:河南
  • A2C_atari

    args = get_args() 各种超参数设置 envs = create_multiple_envs(args) 创建环境 a2c_tra...

  • Resize,w 360,h 240
    PPO

    On-policy VS Off-policy On-policy: The agent learned and the agent inter...

  • Resize,w 360,h 240
    Actor-Critic

    采取# Review – Policy Gradient G表示在采取一直到游戏结束所得到的cumulated reward。这个值是不稳定的,...

  • Resize,w 360,h 240
    Policy Gradient

    Basic Components 在强化学习中,主要有三个部件(components):actor、environment、reward fun...

  • Resize,w 360,h 240
    Lecture 6: Value Function Approximation

    一、Introduction (一)Large-Scale Reinforcement Learning 强化学习可用于解决较大的问题,例如: ...

  • Resize,w 360,h 240
    Lecture 5: Model-Free Control

    一、Introduction (一)Model-Free Reinforcement Learning Last lecture:Model-f...

  • Resize,w 360,h 240
    Lecture 4: Model-Free Prediction

    一、Monte-Carlo Learning (一)Monte-Carlo Reinforcement Learning MC方法可直接从经验中...

  • Resize,w 360,h 240
    Lecture 3: Planning by Dynamic Programming

    一、Introduction (一) 什么是动态规划(Dynamic Programming) Dynamic:问题的动态顺序或时间成分Prog...

  • Resize,w 360,h 240
    Lecture 1:intro_RL

    一、关于RL (一)强化学习的特征 强化学习和其他机器学习的不同之处: 没有监督者,只有一个reward标志 反馈有延迟,不是马上得到 时间很重...