6
0
2
287
1
6.2 基于梯度的学习 神经网络的非线性导致代价函数变成了非凸函数,意味着基于梯度的迭代优化不一定能收敛到全局最优。 所以,对代价函数的优化结果...
希望能慢慢记录学习RL的一点一滴