240 发简信
IP属地:江苏
  • CS294 Lecture 6-Actor Critic

    从 "reward to go" 到 Actor Critic 回顾一下REINFORCE算法其中reward to go 为但这个reward to go有什么缺点呢?实际...

  • Natural Gradient 算法简介

    Natural Gradient DescentScore functionFisher Information MatrixKL 散度KL 散度的二阶 Hessian 阵N...

  • 向量,矩阵,张量求导法则

    向量,矩阵,张量求导向量对向量求导向量对矩阵求导矩阵对矩阵求导使用链式法则总结 向量,矩阵,张量求导 参考:http://cs231n.stanford.edu/vecDer...