7篇文章 · 14382字 · 4人关注
一、问题的引入 1.1、连续动作空间 在此之前,我们讨论和研究的都是离散的动作空间,而在实际问题中,存在大量的连续空间的问题,比如价格、角度、时...
一、理论思想 在此之前,我们讨论了值函数的方法,把优化的重点放在了值函数上,得到了最优值函数,即可得到最优策略。事实上,策略梯度方法的思想则更加...
一、预备工具 1.1、Gym Gym是OpenAI开发的通用强化学习算法测试平台,集成了众多仿真实验环境,开发者可以直接调用写好的环境,而不必考...
一、无模型的强化学习 在上一节中介绍了基于模型的强化学习方法(动态规划),其中的前提是知道环境的状态转移概率,但在实际问题中,状态转移的信息往往...
一、组成与结构 1.1、基本概念 强化学习通常使用马尔可夫决策过程(Markov Decision Process,MDP)来描述,具体而言:机...
一、起源与发展 1.1、思想基础 强化学习(Reinfrocement Learning)的思想源于行为心理学(behavioural psyc...
文集作者