240 发简信
IP属地:安徽
  • Resize,w 360,h 240
    MAAC代码分析

    MAAC代码分析 对于算法部分的分析请看这里:MAAC算法总结 - 简书 (jianshu.com)[https://www.jianshu.c...

  • Resize,w 360,h 240
    MAAC算法总结

    论文原文:Actor-Attention-Critic for Multi-Agent Reinforcement Learning 参考文章(...

  • Resize,w 360,h 240
    Flask+dlib虚拟主播测试

    首先项目结构如下: 这个项目是用之前Flask+opencv那个项目改的,所以请无视main.py,server.py,upload.html,...

  • Resize,w 360,h 240
    CMBAC算法总结

    论文原文:Sample-Efficient Reinforcement Learning via Conservative Model-Base...

  • Resize,w 360,h 240
    QTRAN算法总结

    论文原文:QTRAN: Learning to Factorize with Transformation for Cooperative Mu...

  • Resize,w 360,h 240
    DeepCFR总结

    DeepCFR 使用神经网络拟合虚拟遗憾最小化算法 两个神经网络: 虚拟遗憾估值网络:,输入一个状态,输出该状态采用不同动作之后的遗憾值 策略网...

  • Resize,w 360,h 240
    MCCFR算法总结

    MCCFR算法/蒙特卡洛反事实最小化算法 MCCFR算法对于一棵博弈树进行多次迭代,每次迭代时会选择一位玩家作为遍历者,该玩家的策略会在本轮迭代...

  • Resize,w 360,h 240
    Proximal Policy Optimization

    参考链接:Proximal Policy Optimization(PPO)算法原理及实现! - 简书[https://www.jianshu....

  • Resize,w 360,h 240
    AlphaGo Zero学习笔记

    蒙特卡洛树搜索(MCTS) 前向搜索 前向搜索算法从当前状态节点开始,对该状态节点所有可能的动作进行扩展,建立一颗以为根节点的搜索树 前向搜索在...