Introduction to Reinforcement Learning
1. about
1.1 和其他机器学习的关系
2. 什么是增强学习
2.1 强化学习和其它机器学习的差异
- 不是监督学习,没有监督者。会有奖励信号(reward signal),根据奖励信号,作出相应的决策
- 反馈被延迟--容易造成灾难后果
- 时间很重要
- anget(代理)的行动(action)在不同的数据条件下会有不同的结果,是一个主动学习的过程
2.2 例子
3 增强学习的基本介绍
3.1 rewards(奖励)
1.reward是一个标量。
2.表明每一步agent做了什么
3.agent的任务是累加每一步的reward,达到最大
定义:累积求最大化的过程。
3.1.1 奖励的例子
3.2 Sequential Decision Making(连续决策)
目标:选择actions最到化未来的奖励
- actions是长期的
- 奖励可能延迟
- 现在可能会放弃好的奖励,但是未来的奖励会最大
类似投资,短期是亏钱的,但是长期你是赚钱的
3.3 Agent and Environment
大脑可以看作是一个agent,负责作出行动action
两个输入:observation:外界环境信息、reward:奖励大小
输出:action,是根据输入作出的action
外部环境:地球产生reward、observation
大脑:agent(代理),负责作出行动
可以看出这是一个随着时间循环的过程,大脑根据外界环境作出行动,行动又对外界环境产生了影响。
agent根据环境作出action,action更新环境,新的环境产生新的obseration和reward。
强化学习是:观察,奖励,行动的时间序列
3.4 History and State
- Ht是一个observations、actions、rewards的时间序列
O1、R1-->A1-->O2、R2-->A2 - agent 是创建一个observation、reward到action映射
- 历史信息决定了observation、reward
State是决定下一个action,state包括了我们所需要的所有信息,这些信息决定着我们下一步action
- State是根据历史的一个函数。
3.5 Environment State
- Environment State 环境状态信息,通过observation、reward反馈给agent
- Environment State 可以是一个数字的集合,决定下一个agent的行动
3.6 Agent State
3.7 Information State
3.8 Fully Observable Environments
- 完全观测环境=agentState = 环境state
3.9 Partially Observable Environments
- 部分观测环境
4. Inside An RL Agent
4.1 Major Components of an RL Agent
- Policy:agent行动函数
- Value function:agent在某个状态下的好坏程度
- Model:感知环境变化
4.1.1 Policy
- agent的行动
- state到action的映射
4.1.2 Value function
- 预测未来的reward
- 评估状态的好坏
- t阶段,预测未来的奖励
4.1.3 Model
- 预测的作用