海街diary - 简书

发简信

16
关注
23
粉丝
40
文章
12212

字数
35

收获喜欢
1

总资产

IP属地：广东

海街diary

策略迭代(Policy Iteration)
1. 策略迭代算法：初始化.策略评估：(一般而言，下式中为固定策略由于策略更新)策略更新：如果与上次迭代相比没有变化，则停止；否则，转回2。 2. 策略改进分析 (Lemm...

5107 0 1
海街diary

Model-based RL
注：以下内容基于CS598. 1. Estimate Model 给定数据集, 采用极大似然对模型进行估计。用表示的样本数。 2. Analysis of Certainty...

1056 0 0

海街diary

CS598 Homework 1
Question 1 Solution Thus, although there exists constant , it doesn't affect the optima...

406 0 0
海街diary

统计强化学习(Statistical Reinforcement Learning)
UIUC的Prof. Nan Jiang(姜楠)新开了一门Statistical Reinforcement Learning，课程主页在这里。欢迎有基础的同学，参考一起学...

1253 0 0
海街diary

增强学习资源
增强学习是机器学习的一个重要分支。如果您已经具备机器学习、深度学习的基本知识，可以直接上手增强学习，这里推荐UC Berkerly的cs294课程。如果您还不具备机器学习...

223 0 0
海街diary

马尔科夫决策过程解法(Solution to MDP)
1. 马尔科夫决策过程马尔科夫决策过程(Markov Decision Process) 是一个由4个元素组成的元祖组成。为状态; 为动作; 为概率转移，指定; R为奖励...

2343 0 0
海街diary

Introduction to Coordination in Multi-Agent Reinforcement Learning
It is a fact that we live in a world involving interaction with others, including both ...

338 0 0

海街diary

Papers of Multi Agent Reinforcement Learning(MARL)
Papers in Multi-Agent Reinforcement Learning(MARL) This is my paper lists about Multi-A...

1248 0 1
海街diary

Notes of Reinforcement Learning in ICML 2018
ICML-2018 Seminar Notes There is a productive and meaningful seminar in LAMDA Group. I ...

551 0 0
海街diary

矩阵的秩
矩阵的秩是线性变换的空间维度，矩阵的列向量就是新的空间的基。以2维为例，有：同样的在3维。参考：如何理解矩阵的「秩」？ - 马同学的回答 - 知乎

1672 0 0
海街diary

A* 搜索算法最优性分析
公式较多，所以写成了pdf文件，在这里下载

1569 0 0
海街diary

内积矩阵与协方差矩阵
内积矩阵与协方差矩阵是理解PCA的前提，由于公式较多，我将其保存为了pdf，需要的可以从这里下载。

7216 2 4 1

海街diary

集成学习之Bagging
集成学习之Bagging Bagging通过并行化的生成若干个基学习器，然后通过投票(分类)或平均(回归)来对这些基学习器进行集成。在基学习器独立的条件下，理论上，随着基学...

1289 0 1
海街diary

@Lutein 谢谢！

如何安装强化学习虚拟环境Gym，Mujoco，Mujoco-py
环境：Ubuntu 16.04, Cuda 9.1, nvidia-390, Python 3.5.2安装顺序：Mujoco, Mujoco-py, Gym Mujoco s...

Lutein
18234 8 4
海街diary

请问博主，那个mjkey..txt长什么样子呢？官方只给我发的一个激活码

如何安装强化学习虚拟环境Gym，Mujoco，Mujoco-py
环境：Ubuntu 16.04, Cuda 9.1, nvidia-390, Python 3.5.2安装顺序：Mujoco, Mujoco-py, Gym Mujoco s...

Lutein
18234 8 4
海街diary

如何安装强化学习虚拟环境Gym，Mujoco，Mujoco-py
环境：Ubuntu 16.04, Cuda 9.1, nvidia-390, Python 3.5.2安装顺序：Mujoco, Mujoco-py, Gym Mujoco s...

Lutein
18234 8 4
海街diary

k-means
1. K-means原理介绍 k-means通过在欧氏空间求解距离来度量“类内相似度”从而将数据聚类。简单来说，k-means通过控制变量（或EM算法）来进行求解如下优化问题...

283 0 0

个人介绍

Do you know that the hard thing and the right thing are the same thing?