向量,矩阵,张量求导
参考:http://cs231n.stanford.edu/vecDerivs.pdf
向量对向量求导
如何对 求导?其中:
可以先通过计算一种特例,比如 来更好地理解, 可以写成
所以。进而,
PS: 标量对向量求导的维度为 ; 向量对标量求导的维度为 ;
向量对矩阵求导
, 如何求?其中:
依然先计算特例:, 首先
所以可以看到,进一步又发现
于是令 ,有
张量 的其余项均为0,因此可以定义一个二维矩阵 来表示 的结果。
PS:Representing the important part of derivative arrays in a compact way is critical to efficient implementations of neural networks.
矩阵对矩阵求导
, 如何求?其中:
依然进行展开:
于是有
因此
可以发现
- 实际上 所有的结果都包含在 中。
- 与 的行索引没有关系。
- In fact, the matrix W holds all of these partials as it is–we just have to remember to index into it according to Equation 1 to obtain the specific partial derivative that we want.
使用链式法则
, 其中 , 求 ?
依然先从特例开始:
因此
总结
- 为了求得最终的导数结果,往往需要先求中间的结果,例如先求, 再求