Avatar notebook default
7篇文章 · 7639字 · 1人关注
  • Resize,w 360,h 240
    策略梯度(Policy Gradient)

    简述 强化学习方法主要分为两类,一类是Model-based,另外一种是Model free,如图所示: 而Model Free中又包含两种方法...

  • Resize,w 360,h 240
    Deep Q-learning Network(DQN)

    概述 DQN其实是深度学习和强化学习知识的结合,也就是用Deep Networks框架来近似逼近强化学习中的Q value。其中,使用的Deep...

  • Resize,w 360,h 240
    时序差分算法(Temporal-Difference Learning)

    概述 时序差分算法是一种无模型的强化学习算法。它继承了动态规划(Dynamic Programming)和蒙特卡罗方法(Monte Carlo ...

  • Resize,w 360,h 240
    蒙特卡罗方法(Monte Carlo Methods)

    概述 蒙特卡罗方法(Monte Carlo Methods)是强化学习中基于无模型的训练方法。与动态规划(Dynamic Programming...

  • Resize,w 360,h 240
    动态规划(Dynamic Programming)

    区分Continuing Task和Episodic Task 前一节我们已经解释了什么是episode,episode即为从初始的状态到终止状...

  • Resize,w 360,h 240
    马尔可夫决策过程

    马尔可夫属性(The Markov Property) 说到马尔可夫决策过程,我们先来谈谈什么是马尔可夫属性。马尔可夫属性的概念为:下一个状态或...

  • Resize,w 360,h 240
    强化学习基本概念

    强化学习大体框架 强化学习主要成分由Agent和Environment组成,也就是两者通过彼此的interaction来从中进行学习。Agent...

文集作者