机器学习 西瓜书 Day23 强化学习

p371 - p397
今天最后一天啦
话不多说 开始last chapter第16章

第16章 强化学习

16.1 任务与奖赏

种瓜?在过程中我们做什么,并不能立即获得最终奖赏,仅能得到一个当前反馈。我们需要多次种瓜,不断摸索,才能总结出较好的种瓜策略。

强化学习任务四元组 E = <X,A,P,R>
X:状态
A:动作
P:条件转移概率: X x A x X - > R
R:奖赏 : X x A x X -> R

机器要做的事通过在环境中不断尝试而学得一个策略,根据这个策略,输入状态x能得到接下来的动作a。 a=π(x)。
策略有两种表示方法,
一种是直接表示为函数π:X->A,
另一种是概率表示π:XxA->R

策略的优劣取决于长期执行这一策略后得到的累积奖赏
常用的有:T步累积奖赏、γ折扣累计奖赏。

强化学习 vs 监督学习
若将强化学习中的状态对应为监督学习的示例
“动作”对应为“标记”
那么强化学习中的策略实际上就相当于监督学习中的分类器。
因此强化学习在某种意义上可看做具有“延迟标记信息”的监督学习问题。

16.2 K-摇臂赌博机

16.2.1 探索与利用

强化学习与监督学习的显著不同:
机器通过尝试来发现各个动作产生的结果,而没有训练数据告诉机器应当做哪个动作

欲最大化奖赏要考虑两个方面:
1)要知道每个动作带来的奖赏 :探索
2)执行奖赏最大的动作:利用

单步强化学习任务对应了一个理论模型:K-摇臂赌博机
若仅为探索每个摇臂的期望奖赏:仅探索
若仅为执行奖赏最大的动作:仅利用

探索和利用是矛盾的:探索-利用窘境

16.2.2 ε-贪心

基于一个概率来对探索和利用进行折中
每次以ε的概率来进行探索,以1-ε来利用

算法过程伪码 p375

16.2.3 Softmax

Softmax算法基于当前已知的摇臂平均奖赏来对探索和利用进行折中。
若各摇臂的平均奖赏相当,则选取各arm的概率也相当
若某些arm的平均奖赏明显高,则选他们的概率也会更高

概率分配基于Boltzmann分布 p376式16.4
定义了一个“温度”,温度τ越小则平均奖赏高的摇臂选取的概率越高。
τ趋近于0算法趋于仅利用
τ趋近于无穷大算法趋于仅探索

过程伪码见p376 图16.5

总的来说K-摇臂赌博机有局限,因为没有考虑强化学习任务马尔科夫决策过程的结构。

16.3 有模型学习

如果四元组E=<X,A,P,R>一致,这样的情形称为“模型已知”。
在已知模型的环境中学习称为“有模型学习”。

16.3.1 策略评估

模型已知,对任意策略π能估计出策略带来的期望累积策略。
基于T步累计奖赏的策略评估算法 p379图16.7

16.3.2 策略改进

对策略累积奖赏进行评估后,若发现非最优则希望对其改进,理想的是最大化奖赏。

利用p380 最优Bellman等式:
将策略选择的动作改变为当前最优的动作。

16.3.3 策略迭代与值迭代

将16.3.1 和 16.3.2结合起来即可得到求解最优解的方法。
从一个初始策略(如随机策略)出发,先进行策略评估,然后改进策略,评估改进策略,再进一步改进...不断迭代进行评估与改进,直到策略收敛。

p381 图16.8 基于T步累积奖赏的策略迭代改进算法
p382 图16.9 基于T步累积奖赏的值迭代算法

总的来说,在模型已知时强化学习任务可以归结为动态规划的寻优问题。

16.4 免模型学习

比有模型要困难得多

16.4.1 蒙特卡罗强化学习

p384 图16.10 同策略蒙特卡洛强化学习
p386 图16.11 异策略蒙特卡洛强化学习

16.4.2 时序差分学习

p388 图16.12 Sarsa算法
p388 图16.13 Q-学习算法

16.5 值函数近似

若状态空间不是有限的。
现实生活中所面临的状态空间往往是连续的,有无穷多个状态。

p390 图16.14 线性值函数近似Sarsa算法

16.6 模仿学习

种瓜任务时能得到农业专家的种植过程范例

16.6.1 直接模仿学习

有了专家的决策轨迹数据。
那就可以把专家的状态-动作对抽取出来,构造新的数据集合D。
即把状态作为特征,动作作为标记。
然后根据这个D使用分类或回归算法即可学得新的策略模型。

16.6.2 逆强化学习

设计奖赏函数是很困难的
从人类专家提供的数据反推奖赏函数,这就是“逆强化学习”。

知道状态空间X,动作空间A,专家的决策轨迹数据集D。

逆强化学习的基本思想:
欲使机器做出与范例一致的行为,等价于在某个奖赏函数的环境中求解最优策略,使最优策略所产生的轨迹与范例数据一致。
即:寻找某种奖赏函数使范例数据最优。

p392 图16.15 迭代式逆强化学习算法


尾注

啊啊啊终于看完了/(ㄒoㄒ)/~~
一刷看完这一个月收获还是不少的
但还是感觉任重道远呀
这本书想要啃透怎么还得再刷两遍的感觉
不过确实是一本不错的入门书哎

这一个月坚持的还是不错的
虽然中间还是有几天断了
但总归是一个月看完一遍了
算是养成了一个好习惯吧
接下来要开始一段新的任务了
💪加油

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,524评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,869评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,813评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,210评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,085评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,117评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,533评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,219评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,487评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,582评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,362评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,218评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,589评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,899评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,176评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,503评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,707评论 2 335

推荐阅读更多精彩内容