240 发简信
IP属地:北京
  • 120
    深度强化学习(三):从Q-Learning到DQN

    一、无模型的强化学习 在上一节中介绍了基于模型的强化学习方法(动态规划),其中的前提是知道环境的状态转移概率,但在实际问题中,状态转移的信息往往无法获知,由此需要数据驱动的无...