DQN系列算法对连续空间分布的action心有余而力不足,而Policy Gradient系列的算法能够有效的预测连续的动作。在此基础上DPG和DDPG算法被提了出来,并且能...

IP属地:湖北
DQN系列算法对连续空间分布的action心有余而力不足,而Policy Gradient系列的算法能够有效的预测连续的动作。在此基础上DPG和DDPG算法被提了出来,并且能...
一、问题的引入 1.1、连续动作空间 在此之前,我们讨论和研究的都是离散的动作空间,而在实际问题中,存在大量的连续空间的问题,比如价格、角度、时间等。对于离散空间的问题,可以...