深度强化学习基础到前沿 - 专题

投稿

收录了25篇文章 · 2人关注

【Science】颠覆三观的超强聚类算法
这篇文章是自己在上大数据分析课程时老师推荐的一篇文章，当时自己听着也是对原作者当年的的思路新奇非常敬佩，相信很多伙伴也会非常感兴趣，就来做个...

0.1 小小何先生 1 1
【ICLR2020】通过强化学习和稀疏奖励进行模仿学习
论文题目：SQIL: Imitation Learning via Reinforcement Learning with Sparse Rew...

小小何先生 0 0

【5分钟 Paper】Reinforcement Learning with Deep Energy-Based Policies
论文题目：Reinforcement Learning with Deep Energy-Based Policies 所解决的问题？作者...

小小何先生 0 0
强化学习中的值函数近似算法
在开始说值函数近似方法之前，我们先回顾一下强化学习算法。强化学习算法主要有两大类Model-based 的方法和Model-free的方法，...

小小何先生 0 0
【5分钟 Paper】Continuous Control With Deep Reinforcement Learning
论文题目：Continuous Control With Deep Reinforcement Learning 所解决的问题？这篇文章将...

小小何先生 0 0
【5分钟 Paper】Deterministic Policy Gradient Algorithms
论文题目：Deterministic Policy Gradient Algorithms 所解决的问题？ stochastic polic...

小小何先生 0 0
【5分钟 Paper】Prioritized Experience Replay
论文题目：Prioritized Experience Replay 所解决的问题？ Experience replay能够让强化学习去考虑...

小小何先生 0 1

机器博弈 (一) 入门简介
现代博弈论建立现代博弈论的建立得从1944年算起，1944年冯·诺依曼的《博弈论与经济行为》以数学形式来阐述博弈论及其应用，标志着现代系统...

小小何先生 0 0
机器博弈 (二) 遗憾最小化算法
现代的博弈论快速与人工智能进行结合，形成了以数据驱动的博弈论新的框架。博弈论与计算机科学的交叉领域非常多，有以下几个方面：理论计算机科学：...

小小何先生 0 0
机器博弈 (三) 虚拟遗憾最小化算法
虚拟遗憾最小化算法(Counterfactual Regret Minimization) 如果不能遍历计算机所有节点的遗憾值，那么可以采用虚拟...

0.1 小小何先生 0 1