240 发简信
IP属地:河南
  • A2C_atari

    args = get_args() 各种超参数设置 envs = create_multiple_envs(args) 创建环境 a2c_trainer = a2c_agen...

  • 120
    PPO

    On-policy VS Off-policy On-policy: The agent learned and the agent interacting with the...

  • 120
    Actor-Critic

    采取# Review – Policy Gradient G表示在采取一直到游戏结束所得到的cumulated reward。这个值是不稳定的,因为在某一个state采取同一...

  • 120
    Policy Gradient

    Basic Components 在强化学习中,主要有三个部件(components):actor、environment、reward function。其中env和rew...

  • if __name__ == '__main__' 如何正确理解

    程序入口 对于很多编程语言来说,程序都必须要有一个入口,比如 C,C++,以及完全面向对象的编程语言 Java,C# 等。如果你接触过这些语言,对于程序入口这个概念应该很好理...

  • 120
    Lecture 6: Value Function Approximation

    一、Introduction (一)Large-Scale Reinforcement Learning 强化学习可用于解决较大的问题,例如: Backgammon: st...

  • 120
    Lecture 5: Model-Free Control

    一、Introduction (一)Model-Free Reinforcement Learning Last lecture:Model-free prediction估...

  • 120
    Lecture 4: Model-Free Prediction

    一、Monte-Carlo Learning (一)Monte-Carlo Reinforcement Learning MC方法可直接从经验中学习 MC是model-fre...

  • 120
    Lecture 3: Planning by Dynamic Programming

    一、Introduction (一) 什么是动态规划(Dynamic Programming) Dynamic:问题的动态顺序或时间成分Programming:优化“程序”,...

  • 120
    Lecture 1:intro_RL

    一、关于RL (一)强化学习的特征 强化学习和其他机器学习的不同之处: 没有监督者,只有一个reward标志 反馈有延迟,不是马上得到 时间很重要(序列)监督学习时将独立同分...

  • 这种事,也只有在故事中才会有

    我下星期一结婚,你来吗?

    01 “我下个星期一结婚,你来吗?” 电话那头里,他的声音依旧温润,如同少年时的初次遇见,如沐春风一见如故。 我拿着手机的手抖了抖,不自觉咽了口口水,没有说话。 他也没有说话...