240 发简信
IP属地:重庆
  • Resize,w 360,h 240
    最优控制: LQR

    一份关于 LQR 的简单易懂的入门级教程,它是最优控制的基础概念。 我将会在这篇文章中讨论最优控制,并会更具体的讨论性能非常优秀的线性二次调节器...

  • 伪随机数算法生成高斯分布

    伪随机数算法 平方取中法(Middle-square method)是个产生伪随机数的方法,由冯·诺伊曼在1946年提出。 算法: 即 平方取中...

  • Resize,w 360,h 240
    反向传播算法

    卷积网络 这里讨论通过卷积的方式表达CNN反向传播 池化层 假设我们的池化区域大小是2x2,并且下一层的梯度为: 如果是MAX,假设我们之前在前...

  • 从傅里叶级数到快速傅里叶变换

    在计算机上编程做信号处理时,我们通常用的是FFT, 但是开始学信号处理时,一般是从FS开始的。所以这里整理一下从FS到FFT“演变”的过程。以下...

  • 噪声对比估计

    说到噪声对比估计,或者“负采样”,大家可能立马就想到了Word2Vec。事实上,它的含义远不止于此,噪音对比估计(NCE, Noise Cont...

  • Resize,w 360,h 240
    Ring Allreduce

    The Communication Problem 当将神经网络的训练并行化到许多GPU上时,你必须选择如何将不同的操作分配到你可用的不同GPU...

  • Resize,w 360,h 240
    自然梯度

    什么是自然梯度 首先,我们必须理解标准梯度下降。 假设我们有一个神经网络,由一些参数向量参数化。我们想要调整这个网络的参数,所以网络的输出在某种...

  • Resize,w 360,h 240
    《强化学习导论》:Policy Gradient Methods

    在这一章中,我们讨论策略梯度 Policy Approximation and its Advantages the approximate p...

  • Resize,w 360,h 240
    《强化学习导论》:Eligibility Traces

    资格迹是增强学习的一个基本的机制。比如在流行的TD(k)算法中,k涉及到资格迹的使用。几乎所有的时间差分算法如Q-Learning,Sarsa,...