强化学习的模型
机器学习分类
- 机器学习可以分为监督学习(Supervised Learning)、非监督学习(Unsupervised Learning)和强化学习(Reinforcement Learning,RL)三大板块。
强化学习简介
- 强化学习是一种模拟生物智能体学习最优决策过程的机器学习方法,其主要思想是智能体以试错的方式与环境不断交互,并积累大量经验和获得环境的各种反馈,并从经验中逐渐学习与环境交互的最佳策略。
- 描述强化学习模型最常用的数学工具是马尔可夫决策过程(Markov Decision Process,MDP)。马尔可夫决策过程是一种满足马尔可夫性的时间序列过程。
- 马尔可夫性是指一个系统下一时刻的状态只与当前时刻的状态有关,而与之前时刻的状态无关。
- 强化学习过程的两大主体是智能体(Agent)和环境(Environment)。
- 智能体是策略学习的主体,其任务是学习与环境交互的最佳策略(Policy),这也是强化学习的终极目标。
- 环境一般是指除智能体以外的所有系统过程,其表现形式是环境状态(State)。
- 马尔可夫决策过程:智能体向环境施加动作(Action),动作会迫使环境状态发生转移,并且环境会给智能体一个反馈信息(Reward)。智能体正是通过“状态→动作→下一状态→反馈”这一系列经验(Experience)过程实现逐渐学习最佳策略。
强化学习分类方式
按照连续性分类
- 强化学习问题可以分为离散型强化学习问题和连续型强化学习问题。
- 离散型强化学习问题是指状态空间和动作空间都离散的强化学习任务,这种问题一般具有明确的初始状态和终止状态,环境系统可以在有限时间步到达终止状态。可以用基于表格的方法求解离散型强化学习问题,也就是说,求解离散型强化学习问题实际上就是维持一个值函数表格,当表格中的数据收敛时,也就达到了最优策略。
- 连续型强化学习问题是指状态空间或动作空间连续的强化学习任务,状态空间连续的强化学习问题可能没有明确的终止状态,智能体和环境的交互会一直进行下去。可以用将连续空间离散化的方法求解连续强化学习问题,但当空间维数较大时,这种方法需要耗费巨大的计算资源,同时精度也不高,所以一般不使用这种方法。表格法在求解大规模强化学习问题上是无能为力的,一般借助深度学习技术来解决大规模强化学习问题。另外一种求解连续型强化学习问题的方法是函数近似法。
按照状态转移信息来分类
- 强化学习可以分为有模型强化学习(Model-Based RL)和免模型强化学习(Model-Free RL)。
- 有模型强化学习是指学习过程中使用了状态转移概率函数,根据状态间的已知转移概率来更新值函数的强化学习方法。动态规划法就是典型的有模型强化学习。
- 免模型强化学习是指在学习过程中不使用环境的状态转移概率函数,仅从智能体和环境交互得到的经验中去学习的强化学习方法。
- 有模型强化学习和免模型强化学习各有优缺点和适用场景,近年来,将有模型强化学习和免模型强化学习相结合构造更高效的强化学习方法,逐渐成为一个新的研究方向。
按照技术来分类
- 强化学习可以分为经典强化学习和深度强化学习。
- 经典强化学习从最优控制发展而来,其基础理论是动态规划法,主要解决简单的离散型强化学习问题。
- 深度强化学习是将经典强化学习和现代深度学习相结合,深度强化学习擅长解决连续型强化学习任务和大规模强化学习任务。
强化学习的历史
主要发展路线
- 第1条发展路线是心理学上模仿动物学习方式的试错法。
- 以尝试和错误学习(Trial-and-Error Learning)为中心的一种仿生心理学方法。
- 第2条发展路线是最优控制问题,主要使用动态规划法。
- 贝尔曼方程:通过利用动态系统中的状态信息和引入一个值函数的概念来定义“最大回报函数”,而这个“最大回报函数”就是求解强化学习通用范式的贝尔曼方程。
- 动态规划法:通过贝尔曼方程来间接求解最优控制问题的方法称为动态规划法(Dynamic Programming,DP)。
- 马尔可夫决策过程的引入使最优控制问题有了一个标准的数学模型。1960年提出了基于马尔可夫决策过程的策略迭代方法。相较于基于贝尔曼方程的方法,策略迭代方法将迭代求解的范式引入最优控制问题求解中。
- 使用动态规划法求解最优控制问题最大的困难在于“维数灾难”,当问题的状态空间连续或状态空间巨大时,动态规划求解需要巨大的计算资源。
- 第3条发展是基于时序差分求解,将试错法和动态规划法有机地结合起来。
强化学习与机器学习的关系
- 现代深度强化学习不仅用于解决控制问题,而且还用于解决决策问题、最优化问题、博弈论问题、对策论问题等。
- 强化学习和监督学习的区别在于强化学习不需要事先准备好训练数据,更没有输出作为监督来指导学习过程。
- 强化学习有环境反馈的即时奖励和由即时奖励构成的回报,但即时奖励和回报与监督学习的输出不一样,它们并不是事先给出的,而是延后给出的。
- 强化学习的每步与时间顺序前后关系密切,而监督学习的训练数据一般是相互独立的,即相互之间没有依赖关系。
- 将强化学习和深度学习相结合的深度强化学习已经和监督学习密不可分了。
强化学习的模型
-
强化学习过程包括环境、智能体、策略等基本组成部分。
强化学习的基本组成要素
- 强化学习的基本模型:在时间步t,智能体感知环境的状态St,根据当前策略π选择需要执行的动作at,智能体对环境施行动作at后环境状态转移到St+1,与此同时环境给智能体一个反馈信息rt+1,智能体根据这一反馈信息适当地调整当前策略,以使下一时间步根据调整后的策略执行的动作会得到更好的环境反馈,至此当前时间步结束,系统进入下一个时间步。此循环一直进行,直到智能体学习到最优策略为止。
- 强化学习的基本组成要素如下:
- (1)智能体(Agent):策略学习的主体,作为学习者或决策者存在。
- (2)环境(Environment):智能体以外的一切,主要用状态进行描述。
- (3)状态(State):表示环境特点的数据,可以是向量、矩阵、图片或其他类型的数据,环境在t时刻的状态用符号St或st表示。所有可能的环境状态的全体称为状态集合或状态空间,用S表示。
- (4)动作(Action):表示智能体做出决策的数据,即向环境施加动作的数据,数据形式可以是一个动作编号、One-Hot向量或一般向量,智能体在t时刻向环境施加的动作用符号At或at表示。智能体所有可能执行的动作的全体称为动作集合或动作空间,用A表示。智能体在状态st时能够执行的合法动作的集合记为A(st)。
- (5)奖励(Reward):表示环境在交互过程中反馈给智能体的信息,一般用一个实数表示,即rt∈R。一般来讲奖励值越大表明环境对智能体施加的动作的反馈越正向。
- (6)策略(Policy):智能体在某一状态下采取何种动作的一种决策机制,是智能体学习优化的对象,用π表示智能体的当前策略。
强化学习的执行过程
- 根据强化学习的基本模型和组成要素,强化学习的执行过程可以归纳如下:
- 步骤1:智能体感知当前环境状态。
- 步骤2:智能体根据当前策略选择将要执行的动作。
- 步骤3:智能体选择的动作被施加到环境中,迫使环境状态发生转移。
- 步骤4:环境状态发生转移,同时,环境向智能体发出一个反馈信号。
- 步骤5:智能体根据接收的环境反馈信号适当地优化自己的策略。
- 步骤6:转步骤1,开始下一次交互,直到环境达到终止状态。
- 从步骤1到步骤5的过程叫作智能体和环境发生一次交互,或一个时间步。智能体和环境的交互会一直进行,直到环境达到终止状态为止(若存在终止状态)。这时,智能体和环境完成了一个包括多次交互的完整过程,称为一局(Episode)。
马尔可夫决策过程
- 马尔可夫性,也称无后效性,是指在时间步t+1时,环境的反馈仅取决于上一时间步t的状态st和动作at,与时间步t-1及之前时间步的状态和动作没有关系。
- 马尔可夫决策过程(Markov Decision Process,MDP)依赖于时序的且具有马尔可夫性的决策过程。
- 一般的马尔可夫决策过程由状态空间S、动作空间A、状态转移概率函数p和奖励函数R(或r)来描述,即四元组MDP=(S,A,p,R)。
- 强化学习中的马尔可夫决策过程增加了一个折扣系数γ,用于计算累积折扣奖励,所以用于强化学习的马尔可夫决策过程由一个五元组构成,即MDP=(S,A,p,R,γ)。
- S:状态空间,表示环境的所有可能状态组成的集合。
- A:动作空间,表示智能体能对环境施加的所有可能动作组成的集合。
- p:状态转移概率函数,表示环境在当前状态s下,被智能体施行动作a,状态转移到s′的概率。状态转移概率在数学上可以定义为一个条件概率函数,
- R:奖励函数,表示环境在当前状态s下,被智能体施行动作a后反馈给智能体的奖励值。
- γ:折扣系数,用于计算累积折扣奖励。
-
马尔可夫序列(MDP Sequence)或马尔可夫链(MDP Chain):根据马尔可夫决策过程,智能体和环境进行一局交互后,可以得到一条由状态、动作、奖励组成的序列,即一次交互的数据St,At,Rt+1,St+1,t=0,1,…,T-1