Skip to content

Latest commit

 

History

History
26 lines (14 loc) · 673 Bytes

bp的口诀.md

File metadata and controls

26 lines (14 loc) · 673 Bytes

如果从caffe的角度来看问题的话 每一次的梯度是下面 bottom.data * top.diff


下面这个blog讲的不错

http://blog.csdn.net/zhongkejingwang/article/details/44514073


每个权重的梯度都等于与其相连的前一层节点的输出(即xi和θ(s1i))乘以与其相连的后一层的反向传播的输出(即δ1j和δ2j)。

如果看不明白原理的话记住这句话即可!


这个如果推导的话,也会得到同样的结论。

你知道为啥吗,因为我们把深度模型的训练过程当作了一个数据优化的问题。

用的法则是链式求导。

刚才说的口诀就是链式求导的结果。