8/10/2019 PaperReading: Playing Atari with Deep Reinforcement Learning

Playing Atari with Deep Reinforcement Learning

Abstract

  1. 使用强化学习直接从高维输入中成功学习控制策略。
  2. Q-learning 的变种进行训练,输入是原始像素,输出是估计未来收益的值函数。
  3. 应用于 Atari Learning Environment 中的 7个游戏,6个优于之前的方法,3个中优于人类专家。

Introduction

  1. 传统RL是十分依赖特征表示的质量。
  2. 深度学习进展能够很好地提取高级特征,试图将该技术应用于RL。
  3. 从深度学习角度看 强化学习存在挑战:
    a. 与监督学习中发现的投入与目标之间的直接联系相比,行动与所产生的奖励之间的延迟可能长达数千个时间步。
    b. 大多数深度学习算法都假设数据样本是独立的,而在强化学习中,典型地会遇到高度相关状态的序列。
    c. 数据分布会随着算法学习新行为而发生变化,这对于采用固定基础分布的深度学习方法可能会产生问题。
  4. 本文证明了卷积神经网络可以在复杂的RL环境中从原始视频数据中学习成功的控制策略。
  5. 使用Q-learning 算法的变种进行训练,同时使用SGD进行更新。
  6. 为了缓解数据相关性和非稳定分布是问题,本文使用reply mechanism。
  7. 网络没有任何特定游戏信息或者手工设计的特征,不参与模拟器内部状态。训练过程中,网络结构和超参数保持不变。

BackGround

  1. 符号:
    Enviroment: ε
    Action at t time-step: a_t \in A\{1, ..., K\}
    Observations at t time-step: x_t \in \mathbb{R}
    Reward at t time-step: r_t
    State at t time-step: \{x_1, a_1, x_2, ..., a_{t-1}, x_t\}
  2. Agent 看不到 Env. 内部。
  3. 可能很多回之后才能收到反馈(回个结束)。
  4. 假设所有序列都在有限时间内终止,则每个序列是一个有限的马尔可夫决策过程(MDP),表示为s_t。则可利用标准强化学习方法学习MDPs,同时以最大化未来奖励的方式选择动作同Env.交互。
  5. 公式:
    a. discount factor (per time-step to rewards): \gamma
    b. future dicounted return at time t: {R_t=\sum^{T}_{t'=t}{\gamma^{t'-t}r_{t'}}}
    T is the time-step at which the game terminates.
    c. optimal action-value function
    Q^*(s,a)=max_\pi E[R_t|s_t=s, a_t=a,\pi]
    \pi is a policy mapping sequences to actions.
    d. 优化 action-value 方程服从 Bellman equation. 基于下列直觉: if the optimal value Q^*(s', a')of the sequence s' at the next time-step was known for all possible actions a', then the optimal strategy is to select the action a' maximising the expected value of {r+\gamma Q^*(s', a')},{Q^*(s,a)=E_{s'\sim\varepsilon }[r+\gamma \max_{a'} Q^*(s', a')|s,a]}
    e. 基础的强化学习 利用Bellman 方程去更新 Q_{i+1}(s,a)=E[r + \gamma \max_{a'} Q_i(s',a')|s,a]从而value-action function 收敛于 Q_i \rightarrow Q^*\ as \ i \rightarrow \infty
    但在实践中,这样基础的方法是完全不合理的, action-value 方程分别对每个序列进行了估计,但是没有进行归纳。
    f. 相反的,通常使用一个方程去逼近 action-value 方程Q(s,a;\theta)\approx Q^*(s, a)
    在强化学习中通常会使用线性方程进行逼近,但有时也会用非线性方程逼近,例如神经网络。
    g. 我们使用带有 \theta的神经网络进行逼近,称为 Q-network, Q-network可以被训练最小化每次迭代i的损失函数L_i(\theta_i){L_i(\theta) = E_{s,a\sim\rho(\cdot)}[(y_i-Q(s,a;\theta_i))^2]}
    where {y_i=E_{s'\sim\varepsilon }[r+\gamma \max_{a'} Q^*(s', a';\theta_{i-1})|s,a]}是迭代i的目标,\rho (s,a)是序列s和动作a上的概率分布, 称为behabiour distribution.
    h. 当优化损失函数L_i(\theta_i)的时候\theta_{i-1}固定。并且target依赖于网络权重,这和监督学习相反。
    i. 通过随机梯度下降优化损失函数。
    {\bigtriangledown_{\theta_i}L_i(\theta_i)=E_{s,a\sim\rho(\cdot);s'\sim \epsilon}[(r+\gamma\max_{a'}Q(s',a';\theta_{i-1}-Q(s,a;\theta_i))\bigtriangledown_{\theta_i}Q(s,a;\theta_i))]\cdot}
    j. 如果权重每一步都更新,期望替换为行为分布\rho和环境中的单个样本,那么就是Q-learning.
    h. 这个算法是model-free的,直接使用来自\varepsilon的样本,而不去统计样本分布。
    k. 同时是off-policy的,使用\epsilon-greedy策略,按\epsilon的概率随机选择action,保证对状态空间的充分搜索。

Related work

  1. TD-gammon(Q-learning+多层感知机)在五子棋上的c成功与在其他任务上的失败。表明,将model-free的强化学习,如Q-learning同非线性逼近函数或者是off-police学习相结合,会导致Q-network的不收敛。
  2. 目前深度学习与强化学习结合的进展很好,但是都没有解决非线性控制的问题。
  3. neural fitted Q-learning 与该文章工作类似,但是该文章工作直接使用从视觉端到端的应用强化学习,而不先学习数据的低位表示。

Deep Reinforcement Learning

  1. Deep-learning + Reinforcement-learning 前途一片光明,作者如是说。
  2. experience replay方法,将Agent 的结果存到集合D=e_1,\cdots e_N,其中e_t=(s_t, a_t, r_t, s_{t+1})。在算法内循环中,随机抽取e\sim D用于训练,执行experience reply 之后按照 \varepsilon-greedy 策略选择action并且执行。
  3. DQN优势
    a.经验的每个步骤可能在许多选中更新中使用,可以提高数据效率。
    b. 将样本随机化会破坏这些相关性,减少更新差异。
    c. 当学习策略时,当前的参数确定训练参数的下一个数据样本。
    d. 通过使用 experience replay,行为分布在许多先前状态中得到平均,从而避免了参数波动或者发散。
    e. 更新时候使用的样本,从D中采样,所以当前参数与生成样本时候参数不同,会激发学习能力,实际上,只存储N个体验,并执行均匀采样。
DQN Algorithm

Preprocessing and Model Architecture

  1. 输入为原始图像灰度化裁剪后图片。
  2. 优于experience replay,减少计算量。
  3. model free.

Conculusion

  1. 用于强化学习的新深度学习模型。
  2. Q-learining 变体,使用stochastic minibatch update with experience replay,简化了RL深度网络的训练。
  3. 未调参,就很牛逼。

BoomShit

  1. What is Bellman equation。
  2. 用于逼近的损失函数 L_i(\theta) 可以改。
  3. 是否先学习数据的低维表示,会有更好的效果。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342