本文来自:
https://blog.csdn.net/DeepOscar/article/details/81036635
本着学习的态度,自己打一遍已增强理解和记忆
1. 马尔可夫决策过程
马尔可夫决策过程是对强化学习问题的数学描述,几乎所有的RL问题都可以用MDPs来描述。
2. 马尔可夫性
【我的理解】类似于条件独立
定义:如果在t时刻的状态St满足下列等式,那么这个状态被称为马尔可夫状态,或者说该状态满足马尔可夫性。
马尔可夫性要点:
- 状态St包含了所有历史相关信息,或者说所有的历史相关信息都可以通过状态St展现出来
- 一旦St知道了,状态S1, S2, ..., St-1都可以被抛弃
有了马尔可夫性后:
- 可以定义状态转义矩阵
- 忽略时间影响,只关心当前状态做出的下一步影响
3. 状态转移矩阵
定义:状态转移概率是指马尔可夫状态S跳转到后续状态S`的概率。
所有的状态组成行,所有的后继状态组成列,将得到状态转移矩阵:
其中,n表示状态的个数,由于P代表了整个状态转移的集合,所以用个花体。每行元素相加等于1。 我们也可以将状态转移概率写成函数的形式:
。
4. 马尔可夫过程
一个马尔可夫过程(MP)是一个无记忆的随机过程,即一些马尔可夫状态的序列。马尔可夫过程可由一个二元组来定义<S,P>,S表示了状态集合,P表示了状态转移矩阵。由于马尔科夫过程可以用图中的方块和线条组成,所以可以称马尔科夫过程为马尔科夫链(MDPs chain)。
举个栗子:
一个学生每天需要学习三个科目,然后通过测试。不过也有可能只学完两个科目之后直接睡觉,一旦挂科有可能需要重新学习某些科目。用椭圆表示普通状态,每一条线上的数字表示从一个状态跳转到另一个状态。方块表示终止状态。终止状态有两种:1是时间终止,2是状态终止。
5. 片段
片段定义:强化学习中,从初始状态S1到终止状态的序列过程,被称为一个片段(episode),S1, S2,... ,ST
如果一个任务总以终止状态结束,那么这个任务被称为片段任务;
如果一个任务没有终止状态,会被无限执行下去,这被称为连续性任务。
- 马尔可夫奖励过程(MRP)
马尔可夫过程主要描述的状态之间的转移关系,在这个转移关系上赋予不同的奖励值即得到马尔可夫奖励过程。
定义:马尔可夫奖励 (Markov Reward Process, MRP) 过程由一个四元组组成 〈S, P,R, γ〉。
S 代表了状态的集合
-
P 描述了状态转移矩
-
R 表示奖励函数,R(s) 描述了在状态 s 的期望奖励,
γ 表示衰减因子,γ ∈ [0, 1]