本系列是对《深度强化学习落地指南》全书的总结,这本书是我市面上看过对深度强化学习落地讲的最好的一本书,大大拓宽了自己对RL落地思考的维度,形成了...
用PPO要用tensorflow_proballity 自己电脑是tf1.x 没法顺利安装 所以要用虚拟环境 一般就是进入venv的bin目录下...
这是一个新的系列,会整理一下以前在ipad上写的笔记。 前言 把概率引进到机器学习当中是一件很自然的事情,许多机器学习当中问题的本质都可以从概率...
这是新开的一个系列,将结合理论和部分代码(by ElegantRL)介绍强化学习中的算法,将从基础理论总结到现在常用的SAC,TD3等算法,希望...
本文是对2016年发表在Nature的<< Mastering the game of Go with deep neural networks...
重要性采样在强化学习有着重要作用,它是蒙特卡洛积分的一种采样策略. 目录 概率论基础 蒙特卡洛积分 重要性采样 参考 概率论基础 本文先补充两条...
前言 上一讲讲解了如果应用动态规划算法对一个已知状态转移概率的MDP进行策略评估或通过策略迭代或直接的价值迭代来寻找最优策略和最优价值函数,同时...
前言 本讲将着重讲解如何利用动态规划(Dynamic programming)来解决强化学习中的规划问题。"规划"是指在已知环境动力学的基础上进...
前言 本讲将从基础的马尔科夫过程开始讲解,到马尔科夫奖励过程,马尔科夫决策过程,最后也会用代码巩固这部分理论. 目录 马尔科夫过程 马尔科夫奖励...