7篇文章 · 7639字 · 1人关注
简述 强化学习方法主要分为两类,一类是Model-based,另外一种是Model free,如图所示: 而Model Free中又包含两种方法...
概述 DQN其实是深度学习和强化学习知识的结合,也就是用Deep Networks框架来近似逼近强化学习中的Q value。其中,使用的Deep...
概述 时序差分算法是一种无模型的强化学习算法。它继承了动态规划(Dynamic Programming)和蒙特卡罗方法(Monte Carlo ...
概述 蒙特卡罗方法(Monte Carlo Methods)是强化学习中基于无模型的训练方法。与动态规划(Dynamic Programming...
区分Continuing Task和Episodic Task 前一节我们已经解释了什么是episode,episode即为从初始的状态到终止状...
马尔可夫属性(The Markov Property) 说到马尔可夫决策过程,我们先来谈谈什么是马尔可夫属性。马尔可夫属性的概念为:下一个状态或...
强化学习大体框架 强化学习主要成分由Agent和Environment组成,也就是两者通过彼此的interaction来从中进行学习。Agent...
文集作者