一份关于 LQR 的简单易懂的入门级教程,它是最优控制的基础概念。 我将会在这篇文章中讨论最优控制,并会更具体的讨论性能非常优秀的线性二次调节器。在最优控制领域中,它的使用频...
一份关于 LQR 的简单易懂的入门级教程,它是最优控制的基础概念。 我将会在这篇文章中讨论最优控制,并会更具体的讨论性能非常优秀的线性二次调节器。在最优控制领域中,它的使用频...
伪随机数算法 平方取中法(Middle-square method)是个产生伪随机数的方法,由冯·诺伊曼在1946年提出。 算法: 即 平方取中法计算较快,但在实际应用时会发...
卷积网络 这里讨论通过卷积的方式表达CNN反向传播 池化层 假设我们的池化区域大小是2x2,并且下一层的梯度为: 如果是MAX,假设我们之前在前向传播时记录的最大值位置分别是...
在计算机上编程做信号处理时,我们通常用的是FFT, 但是开始学信号处理时,一般是从FS开始的。所以这里整理一下从FS到FFT“演变”的过程。以下是傅里叶“家族”的一些名称: ...
说到噪声对比估计,或者“负采样”,大家可能立马就想到了Word2Vec。事实上,它的含义远不止于此,噪音对比估计(NCE, Noise Contrastive Estimat...
The Communication Problem 当将神经网络的训练并行化到许多GPU上时,你必须选择如何将不同的操作分配到你可用的不同GPU上。在这里,我们关注一种称为数...
什么是自然梯度 首先,我们必须理解标准梯度下降。 假设我们有一个神经网络,由一些参数向量参数化。我们想要调整这个网络的参数,所以网络的输出在某种程度上发生了变化。在大多数情况...
开篇一张图,后面听我编 1. 知识准备 1.1 中央处理器(CPU) 中央处理器(CPU,Central Processing Unit)是一块超大规模的集成电路,是一台计算...
在这一章中,我们讨论策略梯度 Policy Approximation and its Advantages the approximate policy can appro...
资格迹是增强学习的一个基本的机制。比如在流行的TD(k)算法中,k涉及到资格迹的使用。几乎所有的时间差分算法如Q-Learning,Sarsa,都能被结合资格迹来获得更有效的...
Semi-gradient Methods 前面个章节中,我们提到了表格法的异策略,这里稍作修改得到半梯度的异策略算法 对于动作值函数 可以看到这里并没有使用重要性采样,这是...
在Windows下,想要编译C++程序有很多种实现方式,Clang+LLVM,GCC,MSVC等。一般而言,要想使用微软的MSVC编译C++程序,需要用到庞大的IDE:Vis...
许多概率模型(通常是无向图模型)由一个未归一化的概率分布定义,我们必须除以配分函数来归一化 对数似然梯度 通过最大似然学习无向模型特别困难的原因在于配分函数依赖于参数。对数似...
二元变量 伯努利分布 似然函数为 对数似然函数为 如果我们令关于u的导数等于零,我们就得到了最大似然的估计值 现在假设我们扔一个硬币3次,碰巧3次都是正面朝上。那么N=m= ...
采样和蒙特卡洛方法 当无法精确计算和或积分(例如,和具有指数数量个项,且无法被精确简化) 时,通常可以使用蒙特卡罗采样来近似它 根据大数定理,如果样本x是独立同分布的,那么其...
结构化概率模型为随机变量之间的直接作用提供了一个正式的建模框架。这种 方式大大减少了模型的参数个数以致于模型只需要更少的数据来进行有效的估计。 这些更小的模型大大减小了在模型...
我们可以将监督学习训练的前馈网络视为表示学习的一种形式。具体地,网络的最后一层通常是线性分类器,如 softmax 回归分类器。网络的其余部分学习出该分类器的表示。 贪心逐层...
自编码器的一般结构 从自编码器获得有用特征的一种方法是限制 h 的维度比 x 小,这种编码维度 小于输入维度的自编码器称为欠完备(undercomplete)自编码器。 学习...