强化学习导论II - 专题

投稿

收录了1篇文章 · 1人关注

2.4 增量实现 & 2.5 解决一个非平稳问题
2.4Incremental Implementation 背景：目前的行动价值方法都将行动价值估计为观察到的奖励的样本平均值。现在转向如何以计...

从此不迷茫 0 0