深度确定性策略梯度（DDPG）

本文首发于行者AI

离散动作与连续动作

    离散动作与连续动作是相对的概念，前者可数，后者不可数。离散动作如LunarLander-v2环境，可以采取四种离散动作；连续动作如Pendulum-v1环境，动作是向左或向右转，用力矩衡量，范围为[-2,2]的连续空间。

    对于连续的动作控制空间，Q-learning与DQN等算法是无法处理的。我们无法用这些算法穷举出所有action的Q值，更无法取其中最大的Q值。那如何输出连续的动作呢，我们可以借用万能的神经网络来处理。在离散动作的场景下，比如输出上下左右这四个动作。有几个动作，神经网络就输出几个概率值，我们用$\pi_{\theta}\left(a_{t} \mid s_{t}\right)$来表示这个随机性的策略。在连续的动作场景下，比如要输出机器人手臂弯曲的角度，这样的一个动作，网络就输出一个具体的浮点数，用$\mu_{\theta}\left(s_{t}\right)$来代表这个确定性的策略。

随机性策略与确定性策略

    对随机性策略来讲，输入某一个状态s，采取某一个动作的可能性是一个概率值，类似抽奖，根据概率随机抽取某一个动作。而对于确定性策略来讲，它没有概率的影响。当神经网络的参数固定下来了之后，输入同样的状态，必然输出同样的动作，这就是确定性的策略。

深度确定性策略梯度

    在连续控制领域，比较经典的强化学习算法就是深度确定性策略梯度（deep deterministic policy gradient，DDPG）。DDPG的特点可以从名字当中拆解后取理解。拆解成深度、确定性和策略梯度。 深度是用了神经网络；确定性表示DDPG输出的是一个确定性的动作，可以用于连续动作的场景；策略梯度代表用到策略网络。

    DDPG是DQN的一个扩展版本，可以扩展到连续动作空间。在 DDPG 的训练中，同样有目标网络和经验回收，经验回放和DQN一样，但目标网络更新跟DQN 有所区别。首先回顾一下DQN的更新公式：

$Q(S, A) \leftarrow Q(S, A)+\alpha\left[R+\gamma \max _{a} Q\left(S^{\prime}, a\right)-Q(S, A)\right]$
其中 $\gamma \max _{a} Q\left(S^{\prime}, a\right)$ 只能处理离散动作，DDPG就是改变这一部分，用一个Actor网络，使其可以处理连续动作空间。DDPG直接在DQN基础上加了一个策略网络直接输出动作值，所以DDPG需要一边学习Q网络，一边学习策略网络。Q网络的参数用w表示。策略网络的参数用θ表示，这其实是Actor-Critic结构。

    通俗地解释一下演员-评论员的结构，策略网络扮演的就是演员的角色，它负责对外展示输出，输出舞蹈动作。Q网络就是评论员，它会在每一个步骤都对演员输出的动作做一个评估，打一个分，估计一下演员的动作未来能有多少收益，也就是去估计这个演员输出这个动作的Q值大概是多少，即 Qw(s, a)。演员就需要根据舞台目前的状态来做出一个动作。演员根据评论员的打分来调整自己的策略，也就是更新演员的神经网络参数θ，争取下次可以做得更好。评论员则是要根据观众的反馈，也就是环境的反馈奖励来调整自己的打分策略，也就是要更新评论员的神经网络的参数w ，目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声，也就是要最大化未来的总收益。

    最开始训练的时候，这两个神经网络参数是随机的。所以评论员最开始是随机打分的，然后演员也跟着乱来，就随机表演，随机输出动作。但是由于我们有环境反馈的奖励存在，所以评论员的评分会越来越准确，也会评判的那个演员的表现会越来越好。既然演员是一个神经网络，是我们希望训练好的策略网络， 我们就需要计算梯度来去更新优化里面的参数 θ 。简单来说，我们希望调整演员的网络参数，使得评委打分尽可能得高。注意，这里的演员是不管观众的，它只关注评委，它就是迎合评委的打分Qw(s, a)而已。

    接下来就是类似 DQN。DQN的最佳策略是想要学出一个很好的Q网络，学好这个网络之后，我们希望选取的那个动作使Q值最大。DDPG的目的也是为了求解让Q值最大的那个动作。 演员只是为了迎合评委的打分而已，所以用来优化策略网络的梯度就是要最大化这个Q值，那么构造的损失函数就是让Q取一个负号。以此来最小化损失，也就是最大化Q。


    这里要注意，除了策略网络要做优化，DDPG还有一个Q网络也要优化。评委一开始也不知道怎么评分，它也是在一步一步的学习当中，慢慢地去给出准确的打分。我们优化Q网络的方法其实跟DQN优化Q网络的方法是一样的，我们用真实的奖励r和下一步的Q（即Q’）来去拟合未来的收益 Q_target。然后让Q网络的输出去逼近这个Q_target。构造的损失函数就是直接求这两个值的均方差。

    为了稳定 Q_target，DDPG分别给Q网络和策略网络都搭建了目标网络，和DQN类似。策略网络的目标网络和Q网络的目标网络这两个网络是固定一段时间的参数之后再跟评估网络同步一下最新的参数。算法流程

代码实现

案例: 倒立摆问题。钟摆以随机位置开始，目标是将其向上摆动，使其保持直立。测试环境： Pendulum-v1

动作：往左转还是往右转，用力矩来衡量，即力乘以力臂。范围[-2,2]：（连续空间）

状态：cos(theta), sin(theta) , thetadot。

奖励：越直立拿到的奖励越高，越偏离，奖励越低。奖励的最大值为0。

定义网络结构：

class ValueNetwork(nn.Module):
    def __init__(self, num_inputs, num_action, hidden_size, init_w=3e-3):
        super(ValueNetwork, self).__init__()

        self.linear1 = nn.Linear(num_inputs + num_action, hidden_size)
        self.linear2 = nn.Linear(hidden_size, hidden_size)
        self.linear3 = nn.Linear(hidden_size, 1)

        self.linear3.weight.data.uniform_(-init_w, init_w)
        self.linear3.bias.data.uniform_(-init_w, init_w)

    def forward(self, state, action):

        x = torch.cat([state, action], 1)
        x = F.relu(self.linear1(x))
        x = F.relu(self.linear2(x))
        x = self.linear3(x)

        return x

class PolicyNetwork(nn.Module):
    def __init__(self, num_inputs, num_actions, hidden_size, init_W = 3e-3):
        super(PolicyNetwork, self).__init__()

        self.linear1 = nn.Linear(num_inputs, hidden_size)
        self.linear2 = nn.Linear(hidden_size, hidden_size)
        self.linear3 = nn.Linear(hidden_size, num_actions)

        self.linear3.weight.data.uniform_(-init_W, init_W)
        self.linear3.weight.data.uniform_(-init_W, init_W)

    def forward(self, x):
        x = F.relu(self.linear1(x))
        x = F.relu(self.linear2(x))
        x = F.tanh(self.linear3(x))
        return x

    def get_action(self, state):
        state = torch.FloatTensor(state).unsqueeze(0).to(device)
        action = self.forward(state)
        return action.detach().cpu().numpy()[0,0]

定义DDPG类:

class DDPG(object):
    def __init__(self, action_dim, state_dim, hidden_dim):
        super(DDPG, self).__init__()
        self.action_dim, self.state_dim, self.hidden_dim = action_dim, state_dim, hidden_dim
        self.batch_size = 128
        self.gamma = 0.99
        self.min_value = -np.inf
        self.max_value = np.inf
        self.soft_tau = 1e-2
        self.replay_buffer_size = 5000
        self.value_lr = 1e-3
        self.policy_lr = 1e-4
        self.update_count = 0

        self.value_net = ValueNetwork(state_dim, action_dim, hidden_dim).to(device)
        self.policy_net = PolicyNetwork(state_dim, action_dim, hidden_dim).to(device)

        self.target_value_net = ValueNetwork(state_dim, action_dim, hidden_dim).to(device)
        self.target_policy_net = PolicyNetwork(state_dim, action_dim, hidden_dim).to(device)

        for target_param, param in zip(self.target_value_net.parameters(), self.value_net.parameters()):
            target_param.data.copy_(param.data)

        for target_param, param in zip(self.target_policy_net.parameters(), self.policy_net.parameters()):
            target_param.data.copy_(param.data)

        self.value_optimizer = optim.Adam(self.value_net.parameters(), lr=self.value_lr)
        self.policy_optimizer = optim.Adam(self.policy_net.parameters(), lr=self.policy_lr)

        self.value_criterion = nn.MSELoss()

        self.replay_buffer = ReplayBuffer(self.replay_buffer_size)

    def update(self):
        state, action, reward, next_state, done = self.replay_buffer.sample(self.batch_size)

        state = torch.FloatTensor(state).to(device)
        next_state = torch.FloatTensor(next_state).to(device)
        action = torch.FloatTensor(action).to(device)
        reward = torch.FloatTensor(reward).unsqueeze(1).to(device)
        done = torch.FloatTensor(np.float32(done)).unsqueeze(1).to(device)

        policy_loss = self.value_net(state, self.policy_net(state))
        policy_loss = - policy_loss.mean()

        next_action = self.target_policy_net(next_state)
        target_value = self.target_value_net(next_state, next_action)
        expected_value = reward + (1.0 - done) * self.gamma * target_value
        expected_value = torch.clamp(expected_value, self.min_value, self.max_value)

        value = self.value_net(state, action)
        value_loss = self.value_criterion(value, expected_value.detach())
        
        for name, param in self.value_net.named_parameters():
             param.requires_grad = False

        self.policy_optimizer.zero_grad()
        policy_loss.backward()
        self.policy_optimizer.step()
        
        for name, param in self.value_net.named_parameters():
             param.requires_grad = True
           
        if self.update_count % 2 == 0:
            self.value_optimizer.zero_grad()
            value_loss.backward()
            self.value_optimizer.step()

        self.update_count += 1

        for target_param, param in zip(self.target_value_net.parameters(), self.value_net.parameters()):
            target_param.data.copy_(
                target_param.data * (1.0 - self.soft_tau) + param.data * self.soft_tau
            )

        for target_param, param in zip(self.target_policy_net.parameters(), self.policy_net.parameters()):
            target_param.data.copy_(
                target_param.data * (1.0 - self.soft_tau) + param.data * self.soft_tau
            )

训练模型：

def main():
    env = gym.make('Pendulum-v1')
    env = NormalizedActions(env)

    ou_noise = OUnoise(env.action_space)

    state_dim = env.observation_space.shape[0]
    action_dim = env.action_space.shape[0]
    hidden_dim = 256

    ddpg = DDPG(action_dim, state_dim, hidden_dim)

    max_frames = 50000
    max_steps = 500
    frame_idx = 0
    rewards = []

    batch_size = 128

    while frame_idx < max_frames:
        state = env.reset()
        ou_noise.reset()
        episode_reward = 0

        for step in range(max_steps):
            env.render()
            action = ddpg.policy_net.get_action(state)
            action = ou_noise.get_action(action, step)
            next_state, reward, done, _ = env.step(action)

            ddpg.replay_buffer.push(state, action, reward, next_state, done)
            if len(ddpg.replay_buffer) > batch_size:
                ddpg.update()

            state = next_state
            episode_reward += reward
            frame_idx += 1

            if done:
                break

        rewards.append(episode_reward)
    env.close()
    plot(frame_idx, rewards)

    在更新policy网络时，未冻结value网络的参数，最终Reward曲线如图4所示：

[图片上传失败...(image-3f9d62-1648620693069)]

                                                                                                                            图4 Reward曲线

    在更新policy网络时，冻结value网络的参数，最终Reward曲线如图5所示：

[图片上传失败...(image-bf1fa0-1648620693069)]

                                                                                                                            图5 Reward曲线



    可以看出在更新policy网络时，由于没有冻结value网络的参数，使得更新波动较大，且更新目标不稳定，所以导致结果不如冻结后得到的reward。

总结

    DDPG通过异策略的方式来训练一个确定性策略，在DQN的基础上做优化，较好的解决了连续动作空间处理的问题。

参考文献

[1]《Reinforcement+Learning: An+Introduction》

[2] https://blog.csdn.net/qq_37395293/article/details/114226081

我们是行者AI，我们在“AI＋游戏”中不断前行。

前往公众号【行者AI】，和我们一起探讨技术问题吧！

最后编辑于：2022.03.30 14:11:53

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,905评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,140评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,791评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,483评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,476评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,516评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,905评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,560评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,778评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,557评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,635评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,338评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,925评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,898评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,142评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,818评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,347评论 2赞 342