1
0
一、无模型的强化学习 在上一节中介绍了基于模型的强化学习方法(动态规划),其中的前提是知道环境的状态转移概率,但在实际问题中,状态转移的信息往往无法获知,由此需要数据驱动的无...
写了 54617 字,被 227 人关注,获得了 205 个喜欢