80301b1567b7 - 简书

发简信

26
关注
1
粉丝
0
文章
0

字数
0

收获喜欢
16

总资产

IP属地：海南

博士伦2014

gym 环境解析：MountainCarContinuous-v0
1. 概述细节：动力不足的汽车必须爬上一维小山才能到达目标。与MountainCar-v0不同，动作（应用的引擎力）允许是连续值。目标位于汽车右侧的山顶上。如果汽车到...

17903 0 5
hwang_zhic

Jupyter Notebook
今天我们来入门Jupyter notebook这个东西，研究一下它的功能目录：一、简介二、安装与运行三、Python3的notebook的功能一、简介 Jupyter No...

3654 0 6
文哥的学习日记

Rainbow:整合DQN六种改进的深度强化学习方法！
在2013年DQN首次被提出后，学者们对其进行了多方面的改进，其中最主要的有六个，分别是：Double-DQN：将动作选择和价值估计分开，避免价值过高估计Dueling-DQ...

29242 3 26 1
文哥的学习日记

GAIL:一种结合GAN思想的反向强化学习方法
前几天听到一声广告语：只要你愿意，从现在开始努力，最坏的结果不过是大器晚成。好了，既然我们决定要努力，要怎么做呢？我们要有自己的一套方法论，如何得到自己的方法论呢？最简单的方...

13451 4 10
hzyido

【专栏】谷歌资深工程师深入浅析AlphaGo Zero与深度强化学习
作者简介：王晶，Google广告大数据部门资深工程师，从事机器学习算法研发，2014年博士毕业于波士顿大学，主要研究方向强化学习。2010年本科毕业于华中科技大学。摘要 A...

3025 0 12 1

暂无个人介绍