icra2021 reinforcement learning paper list

reinforcement learning

Autonomous Vehicle Navigation

Deep Reinforcement Learning for Mapless Navigation of a Hybrid Aerial Underwater Vehicle with Medium Transition

自从在 Atari 类游戏中将深度 Q 学习应用于连续动作域以来，用于运动控制的深度强化学习 (Deep-RL) 技术得到了质的增强。如今，现代 Deep-RL 可以成功地应用于解决多种类型车辆的广泛复杂决策任务。基于此背景，在本文中，我们建议使用 Deep-RL 为混合无人机水下航行器 (HUAUV) 执行自主无地图导航，该机器人可以在空气或水介质中运行。我们开发了两种方法，一种是确定性的，另一种是随机的。我们的系统使用车辆的相对定位和简单的稀疏距离数据来训练网络。我们将我们的方法与适用于飞行器无地图导航的 BUG2 算法的改编版本进行了比较。根据实验结果，我们可以得出结论，基于 Deep-RL 的方法可以成功地用于 HUAUV 的无地图导航和避障。我们的车辆在两种情况下都完成了导航，能够在两种环境中实现预期目标，甚至在避障能力上优于基于行为的算法。

ReLMoGen：将运动生成集成到用于移动操作的强化学习中

ReLMoGen: Integrating Motion Generation in Reinforcement Learning for Mobile Manipulation
许多强化学习 (RL) 方法使用联合控制信号（位置、速度、扭矩）作为连续控制任务的动作空间。我们建议以运动生成器（运动规划器和轨迹执行器的组合）的子目标的形式将动作空间提升到更高的水平。我们认为，通过提升动作空间和利用基于采样的运动规划器，我们可以有效地使用 RL 来解决在原始动作空间中使用现有 RL 方法无法解决的复杂、长期任务。我们提出了 ReLMoGen——一个框架，它结合了一个学习策略来预测子目标和一个运动生成器来计划和执行达到这些子目标所需的运动。为了验证我们的方法，我们将 ReLMoGen 应用于两种类型的任务：1）交互式导航任务，需要与环境交互才能到达目的地的导航问题，以及 2) 移动操作任务，需要移动机器人底座的操作任务。这些问题具有挑战性，因为它们通常是长期的，在训练期间难以探索，并且包含导航和交互的交替阶段。我们的方法在逼真的模拟环境中以一组不同的七个机器人任务为基准。在所有设置中，ReLMoGen 都优于最先进的 RL 和分层 RL 基线。ReLMoGen 在测试时还显示出不同运动发生器之间的出色可转移性，表明转移到真实机器人的巨大潜力。欲了解更多信息，请访问项目网站：http://svl.stanford.edu.lib.ezproxy.ust.hk/projects/relmogen。

Robot Navigation in Constrained Pedestrian Environments Using Reinforcement Learning
流畅地在行人周围导航是部署在人类环境（如建筑物和家庭）中的移动机器人的必要能力。虽然社会导航的研究主要集中在开放空间中行人数量的可扩展性上，但典型的室内环境提出了受限空间的额外挑战，例如走廊和门口，这些空间限制了可操作性并影响了行人互动的模式。我们提出了一种基于强化学习 (RL) 的方法来学习能够动态适应移动行人的存在的策略，同时在受限环境中的所需位置之间导航。策略网络接收来自运动规划器的指导，该运动规划器提供航路点以遵循全局规划的轨迹，而 RL 处理本地交互。我们探索了多布局训练的组合原则，发现在一组几何简单的布局中训练的策略成功地推广到更复杂的看不见的布局，这些布局展示了训练期间可用结构元素的组合。超越类似墙壁世界的领域，我们展示了将学习策略转移到两个真实环境的看不见的 3D 重建。这些结果支持组合原理在现实世界建筑物中导航的适用性，并表明多智能体模拟在重建环境中用于涉及交互的任务的前景广阔。https://ai-stanford-edu.lib.ezproxy.ust.hk/∼cdarpino/socialnavconstrained/

Localization and Mapping

用于在不确定性下自主探索的图的零样本强化学习

Zero-Shot Reinforcement Learning on Graphs for Autonomous Exploration under Uncertainty

本文研究了具有3D距离感测的移动机器人在定位不确定性下的自主探索问题。我们提出了一个框架，用于在单个模拟环境中自学习高性能探索策略，并将其转移到可能是物理或虚拟的其他环境中。最近在迁移学习方面的工作通过域适应和域随机化实现了令人鼓舞的性能，从而将代理暴露在填补 sim2sim 和 sim2real 方法中固有空白的场景中。然而，在具有随机条件的环境中训练代理来学习其当前状态的重要特征是低效的。代理可以使用人类专家提供的领域知识来有效地学习。我们提出了一种新方法，该方法将图神经网络与深度强化学习结合使用，能够对包含人类专家提供的相关探索信息的图进行决策，以预测机器人在信念空间中的最佳感知动作。该策略仅在单一模拟环境中进行训练，提供实时、可扩展和可转移的决策策略，从而实现零样本转移到其他模拟环境甚至现实世界环境。

Deep Learning in Robotics and Automation

Deep Reinforcement Learning for Active Target Tracking

我们使用深度强化学习 (RL) 方法解决了主动目标跟踪，这是自治系统中的基本任务之一。在这个问题中，自主代理的任务是使用其板载传感器获取有关感兴趣目标的信息。这个问题的经典挑战是系统模型依赖性和长期规划范围内计算信息论成本函数的困难。RL 为这些挑战提供了解决方案，因为其有效规划范围的长度不会影响计算复杂性，并且它消除了算法对系统模型的强烈依赖。特别是，我们引入了主动跟踪目标网络 (ATTN)，这是一种统一的深度 RL 策略，能够解决主动目标跟踪的主要子任务——视线跟踪、导航和探索。该策略显示了使用部分已知的目标模型跟踪敏捷和异常目标的稳健行为。此外，相同的策略能够在障碍环境中导航以到达远处目标，以及在目标位于意外位置时探索环境。

Regularizing Action Policies for Smooth Control with Reinforcement Learning
使用深度强化学习 (RL) 训练的控制器的实际效用的一个关键问题是 RL 策略学习的动作明显缺乏平滑性。这种趋势通常以控制信号振荡的形式出现，并可能导致控制不良、高功耗和过度的系统磨损。我们引入了 Conditioning for Action Policy Smoothness (CAPS)，这是一种有效而直观的动作策略正则化，它在神经网络控制器的学习状态到动作映射的平滑度方面提供了一致的改进，体现在消除高频分量在控制信号中。在真实系统上测试，四旋翼无人机控制器平滑度的改进导致功耗降低了近 80%，同时持续训练具有飞行能力的控制器。项目网站：http://ai.bu.edu/caps

Multiple and Distributed Intelligence

学习在障碍中放牧代理：使用深度强化学习训练鲁棒的牧羊行为

Learning to Herd Agents Amongst Obstacles: Training Robust Shepherding Behaviors Using Deep Reinforcement Learning

机器人牧羊问题考虑通过称为牧羊人的外部机器人的运动来控制和导航一组连贯的代理（例如，一群鸟或一群无人机）。基于机器学习的方法已经在没有障碍的环境中成功地解决了这个问题。另一方面，基于规则的方法可以处理更复杂的场景，其中环境中布满了障碍物，并允许多个牧羊人协同工作。然而，由于难以定义一套全面的行为规则，这些基于规则的方法很脆弱。为了克服这些限制，我们提出了第一个已知的基于学习的方法，可以在障碍中聚集代理。通过使用结合概率路线图的深度强化学习技术，我们使用嘈杂但受控的环境和行为参数训练牧羊模型。我们的实验结果表明，经过训练的牧羊控制器是鲁棒的，即它对来自群体行为模型或具有少量路径同伦类的环境的不确定性不敏感。因此，与基于规则的行为方法相比，所提出的方法具有更高的成功率、更短的完成时间和路径长度。这些优势在更具挑战性的场景中尤其突出，涉及更困难的群体和艰苦的通道。

Multiple and Distributed Systems

一种用于群系统自主控制的自适应模糊强化学习合作方法

An Adaptive Fuzzy Reinforcement Learning Cooperative Approach for the Autonomous Control of Flock Systems

群体引导问题具有同时解决多个优化目标的具有挑战性的结构。这通常需要不同的控制方法来解决各种目标，例如引导、避免碰撞和凝聚力。尤其是制导方案，长期以来一直受到复杂的跟踪误差动态的影响。此外，基于在平衡条件下获得的线性反馈策略的技术在应用于不确定的动态环境时可能无法保持或退化。在这种未建模的条件下，预调模糊推理架构缺乏鲁棒性。这项工作介绍了一种自适应分布式技术，用于羊群系统的自主控制。其相对灵活的结构基于同时针对多个目标的在线模糊强化学习方案；即跟随领导者，避免碰撞，并达成群速度共识。除了在面对动态干扰时具有弹性之外，该算法不需要超过代理位置作为反馈信号。所提出方法的有效性通过两个模拟场景进行了验证，并与文献中的类似技术进行了基准测试。

Deep Reinforcement Learning of Event-Triggered Communication and Control for Multi-Agent Cooperative Transport
在本文中，我们探索了一种多智能体强化学习方法来解决多智能体协作运输的通信和控制策略的设计问题。典型的端到端深度神经网络策略可能不足以覆盖通信和控制；这些方法不能决定通信的时间，只能用于固定速率的通信。因此，我们的框架利用了事件触发架构，即计算通信输入的反馈控制器和确定何时必须再次更新输入的触发机制。这种事件触发的控制策略使用多智能体深度确定性策略梯度进行了有效优化。我们证实，我们的方法可以通过数值模拟平衡传输性能和通信节省。

Decentralized Circle Formation Control for Fish-Like Robots in Real-World Via Reinforcement Learning
在本文中，解决了一组涉及未知非线性动力学和扰动的协作欠驱动鱼状机器人的圆形成控制问题。基于强化学习和认知一致性理论，我们提出了一种分散式控制器，无需了解类鱼机器人的动力学。所提出的控制器可以从模拟转移到现实。它仅在我们建立的模拟环境中进行训练，训练后的控制器无需任何手动调整即可部署到真实机器人上。仿真结果证实，所提出的无模型鲁棒编队控制方法相对于机器人的组大小是可扩展的，并且优于其他代表性的 RL 算法。

Service Robotics

基于可扩展导航网络的室内机器人探索强化学习

Extendable Navigation Network Based Reinforcement Learning for Indoor Robot Exploration

本文提出了一种基于导航网络的深度强化学习框架，用于自主室内机器人探索。所提出的方法具有模式认知非近视探索策略，可以更好地反映对结构的普遍偏好。我们提出可扩展导航网络 (ENN) 将部分观察到的高维室内欧几里得空间编码为稀疏图表示。机器人的运动由输入为 ENN 的学习型 Q 网络生成。所提出的框架适用于在 GAZEBO 模拟中配备 2D LIDAR 传感器的机器人，其中实现了真实建筑物的平面图。实验证明了框架在探索时间方面的效率。

Motion Planning

Learning from Simulation, Racing in Reality

我们提出了一种基于强化学习的解决方案，用于在微型赛车平台上进行自主比赛。我们表明，使用相对简单的车辆模型（包括模型随机化）纯粹在模拟中训练的策略可以成功地转移到真实的机器人设置中。我们通过使用一种新颖的策略输出正则化方法和一个提升的动作空间来实现这一点，该空间可以实现平稳的动作，但仍然是激进的赛车驾驶。我们表明，无论是在模拟中还是在真实汽车上，这种正则化策略确实优于 Soft Actor Critic (SAC) 基线方法，但它仍然优于模型预测控制器 (MPC) 最先进的方法。

NavRep: Unsupervised Representations for Reinforcement Learning of Robot Navigation in Dynamic Human Environments
机器人导航是强化学习方法仍然无法与传统路径规划竞争的任务。最先进的方法在很小的方面有所不同，并且并非都提供可重复的、公开可用的实现。这使得比较方法成为一项挑战。最近的研究表明，无监督学习方法可以令人印象深刻地扩展，并可以用来解决难题。在这项工作中，我们设计了可以使用无监督学习来辅助机器人导航强化学习的方法。我们训练了两个端到端和 18 个基于无监督学习的架构，并在看不见的测试用例中将它们与现有方法进行比较。我们展示了我们在现实生活中的机器人上工作的方法。我们的结果表明，无监督学习方法与端到端方法具有竞争力。我们还强调了各种组件的重要性，例如输入表示、预测性无监督学习和潜在特征。我们公开所有模型，以及培训和测试环境和工具 1 . 此版本还包括与 OpenAI-gym 兼容的环境，旨在模拟其他论文描述的训练条件，并尽可能保真。我们希望这有助于将 RL 领域用于机器人导航，并允许对最先进的方法进行有意义的比较。

Rehabilitation and Assistive Robotics: Reinforcement Learning

人工引导机器人行为学习：一种 GAN 辅助的基于偏好的强化学习方法

Human-Guided Robot Behavior Learning: A GAN-Assisted Preference-Based Reinforcement Learning Approach

人类演示可以提供可靠的样本来训练强化学习算法，让机器人在现实环境中学习复杂的行为。然而，获得足够的演示可能是不切实际的，因为人类很难演示许多行为。一种更实用的方法是用人工查询代替人工演示，即基于偏好的强化学习。现有算法的一个关键限制是需要大量人工查询，因为需要大量标记数据来训练神经网络以逼近连续的高维奖励函数。为了减少和最大限度地减少对人工查询的需求，我们提出了一种新的 GAN 辅助的基于人类偏好的强化学习方法，该方法使用生成对抗网络 (GAN) 来学习人类偏好，然后取代人类在分配偏好中的角色。对抗神经网络很简单，只有二进制输出，因此需要更少的人工查询来训练。此外，基于最大熵的强化学习算法旨在将损失调整为朝向期望区域或远离不期望区域。为了展示所提出方法的有效性，我们提出了一些关于在典型的 MuJoCo 机器人运动环境中没有获得环境奖励的复杂机器人任务的研究。获得的结果表明，我们的方法可以在不牺牲性能的情况下减少约 99.8% 的人力时间。

Protective Policy Transfer
在训练机器人在不可预测的现实世界环境中运行时，能够将现有技能转移到新环境中是一项关键能力。一个成功的转移算法不仅要尽量减少机器人在新环境中需要采集的样本数量，还要防止机器人在转移过程中损坏自身或周围环境。在这项工作中，我们引入了一种策略转移算法，用于使机器人运动技能适应新场景，同时最大限度地减少严重故障。我们的算法在训练环境中训练了两个控制策略：一个为完成感兴趣的任务而优化的任务策略，以及一个专门用于防止机器人发生不安全事件（例如，跌倒在地）的保护策略。要决定在执行期间使用哪个策略，我们在训练环境中学习了一个安全估计模型，该模型估计机器人的连续安全水平。当与一组阈值一起使用时，安全估计器成为在保护策略和任务策略之间切换的分类器。我们评估了我们对四个模拟机器人运动问题的方法，并表明我们的方法可以在考虑机器人安全性的同时成功转移到明显不同的环境。

Natural Walking with Musculoskeletal Models Using Deep Reinforcement Learning
最近通过轨迹优化方法或深度强化学习 (DRL) 开发了详细的肌肉骨骼模型，研究了人类步态的最优性。轨迹优化研究受到轨迹长度的限制，只能生成开环解决方案。虽然现有的 DRL 解决方案提供了没有轨迹长度限制的闭环控制策略，但它们要么不评估行为的自然性，要么直接施加实验跟踪数据。在这封信中，提出了一种基于 DRL 的方法，该方法具有受自然启发的课程学习 (CL) 方案和受神经力学启发的奖励功能。这种方法在没有实验数据的帮助下产生接近自然的人类行走。我们的 CL 方案是通过不断发展的奖励函数实现的，首先针对更简单的行为，例如站立和迈步，然后逐渐细化步态。闭环随机策略中出现的步态与人类步态运动学有很强的相关性，髋关节和膝关节的 Pearson 相关性分别为 0.95 和 0.83，并且步态对称性高于其他两种基于 DRL 的没有 CL 的控制策略。

A Data-Driven Reinforcement Learning Solution Framework for Optimal and Adaptive Personalization of a Hip Exoskeleton
机器人外骨骼是增强人类活动能力的令人兴奋的技术。然而，设计这样一种与人类用户无缝集成并帮助人类运动的设备仍然是一项重大挑战。本文旨在开发一种基于强化学习 (RL) 的新型数据驱动解决方案框架，无需先对人机动力学进行建模，即可提供最佳和自适应的个性化扭矩辅助，以减少人类在行走过程中的努力。我们的自动个性化解决方案框架包括具有两个控制时序参数（峰值和偏移时序）的辅助扭矩曲线、用于学习参数调整策略的最小二乘策略迭代 (LSPI) 以及基于转移功比的成本函数。所提出的控制器在健康人身上成功验证，以帮助行走时单侧髋关节伸展。结果表明，优化自适应RL控制器作为一种新方法，可用于调整与人体动作协调的髋关节外骨骼辅助扭矩曲线，并降低人体髋关节伸肌的激活水平。

Automation

Proactive Action Visual Residual Reinforcement Learning for Contact-Rich Tasks Using a Torque-Controlled Robot
现代制造环境中常见的接触丰富的操作任务。然而，对于传统的控制方法而言，手动设计机器人控制器被认为是困难的，因为控制器需要有效组合各种模式和截然不同的特性。在本文中，我们首先考虑将操作空间视觉和触觉信息结合到强化学习（RL）方法中，以解决非结构化环境中的目标不确定性问题。此外，我们提出了一种新颖的想法，即引入主动行动来解决部分可观察的马尔可夫决策过程（POMDP）问题。有了这两个想法，我们的方法既可以适应非结构化环境中的合理变化，也可以提高策略学习的样本效率。我们在一项涉及使用扭矩控制机器人插入随机存取存储器 (RAM) 的任务上评估了我们的方法，并测试了传统方法中使用的不同基线的成功率。我们证明了我们的方法是稳健的并且可以容忍环境变化。

Automation: Machine Learning

Model-Based Reinforcement Learning with Provable Safety Guarantees Via Control Barrier Functions
安全性是机器人、交通和能源等应用中的关键属性。在强化学习 (RL) 设置中，安全性尤其具有挑战性，其中系统动力学的不确定性可能会在探索过程中导致安全违规。控制屏障功能 (CBF) 通过限制每个时间步的控制动作来增强安全性，是一种有前途的安全关键控制方法。该技术已被应用于确保无模型 RL 的安全性，但尚未集成到基于模型的 RL 中。在本文中，我们提出了不确定性容忍控制障碍函数 (UTCBFs)，这是一种新的 CBF 类，用于结合模型不确定性并以期望的概率提供可证明的安全保证。此外，我们引入了一种基于模型的强化学习算法，通过将 CBF 与基于梯度的策略搜索相结合来保证安全性。我们的方法通过对推车杆系统和倒立摆系统的数值研究与最先进的 RL 算法进行比较来验证。

Continual Model-Based Reinforcement Learning with Hypernetworks
基于模型的强化学习 (MBRL) 和模型预测控制 (MPC) 中的有效规划依赖于学习动态模型的准确性。在 MBRL 和 MPC 的许多实例中，该模型被假定为静止的，并定期根据从环境交互开始时收集的状态转换经验从头开始重新训练。这意味着训练动态模型所需的时间 - 以及计划执行之间所需的暂停 - 随着收集到的经验的大小线性增长。我们认为这对于终身机器人学习来说太慢了，并提出了 HyperCRL，一种使用任务条件超网络持续学习一系列任务中遇到的动态的方法。我们的方法具有三个主要属性：首先，它包括不重新访问来自先前任务的训练数据的动态学习会话，因此它只需要存储状态转换经验的最新固定大小部分；其次，它使用固定容量的超网络来表示非平稳和任务感知的动态；第三，它优于现有的依赖固定容量网络的持续学习替代方案，并且与记住不断增加的过去经验核心集的基线相比具有竞争力。我们表明，HyperCRL 在机器人运动和操作场景中的持续基于模型的强化学习中是有效的，例如涉及推和开门的任务。我们带有视频的项目网站位于此链接 http://rvl.cs.toronto.edu/blog/2020/hypercrl/

Reinforcement Learning Based Temporal Logic Control with Maximum Probabilistic Satisfaction
本文提出了一种无模型强化学习 (RL) 算法，用于合成一种控制策略，该控制策略最大化复杂任务的满足概率，由线性时序逻辑 (LTL) 规范表示。由于考虑环境和运动的不确定性，我们将机器人运动建模为具有未知转移概率和概率标记函数的概率标记马尔可夫决策过程（PL-MDP）。LTL 任务规范转换为具有多个接受集的极限确定性广义 Büchi 自动机 (LDGBA)，以在学习期间保持密集奖励。应用LDGBA的新颖之处在于通过设计一个同步跟踪前沿函数来构建一个嵌入式LDGBA（E-LDGBA），可以在重复访问模式的每一轮记录LDGBA的非访问接受集，克服了直接应用常规LDGBA的困难。通过适当的相关奖励和折扣函数，严格的分析表明，任何优化基于 RL 方法的预期折扣回报的方法都可以保证找到最大化 LTL 规范的满足概率的最优策略。本文开发了一种基于 RL 的无模型运动规划策略来生成最优策略。通过仿真和实验结果证明了基于 RL 的控制综合的有效性。

Autonomous Navigation

Decision Making for Autonomous Driving Via Augmented Adversarial Inverse Reinforcement Learning
在复杂的驾驶环境中做出决策对于自主代理来说是一项具有挑战性的任务。模仿学习方法具有实现这一目标的巨大潜力。对抗逆强化学习 (AIRL) 是最先进的模仿学习方法之一，它可以同时学习行为策略和奖励函数，但它仅在不引入交互的简单和静态环境中得到证明。在本文中，我们通过在学习框架中增加语义奖励来改进和稳定 AIRL 的性能。此外，我们在高度交互的自动驾驶环境中使增强的 AIRL 适应更实用和更具挑战性的决策任务。所提出的方法与四个基线进行比较，并通过四个性能指标进行评估。

Biomedical Robotics

Reinforcement Learning Control of a Novel Magnetic Actuated Flexible-Joint Robotic Camera System for Single Incision Laparoscopic Surgery
本文介绍了一种用于单切口腹腔镜手术的具有四个自由度 (4-DOF) 的新型磁驱动柔性关节机器人手术 (MAFRS) 摄像机系统的控制。基于运动解耦的思想，我们设计了一种新颖的MAFRS系统，该系统由一个外部驱动装置和一个具有空心柔性关节的无电机可插入无线机器人装置组成。由于MAFRS系统在实际应用过程中存在腹壁阻塞和腹壁厚度可变性的问题，以及多个永磁体和导磁介质的存在，无需机载的可插入设备的高精度位置和姿态控制电机一直是一个挑战。我们使用外部驱动装置产生磁场来控制内部机器人装置的位置和姿态。针对新型MAFRS相机系统的自动精确倾斜运动控制，我们开发了一种使用深度确定性策略梯度（DDPG）算法的闭环控制方案。参考人体肌肉的阻尼特性，提出了一种虚拟肌肉方法来消除MAFRS相机在特定角度的抖动问题。实验研究表明，内部机器人装置可以在不同腹壁厚度下得到有效控制。俯仰运动控制精度在0.5°以内，具有良好的适应性和抗干扰性能。

Continuum Robotics

Deep Reinforcement Learning for Concentric Tube Robot Control with a Goal-Based Curriculum
同心管机器人 (CTR) 是一种连续体机器人，是由超弹性镍钛合金组成的同心、预弯曲管的集合。CTR 会因相邻管之间的相互作用而弯曲和扭曲，从而导致运动学，因此对末端执行器的控制非常具有挑战性。在本文中，我们使用深度强化学习 (DRL) 方法和基于目标的课程奖励策略，为笛卡尔空间中的 CTR 末端执行器开发了一种控制方案，没有先前的运动学模型。我们通过使用常数、线性和指数衰减函数进行训练来改变目标容差，从而探索课程的使用。此外，还探索了相对和绝对联合表示作为提高训练收敛性的一种方式。对课程和联合表示的组合进行定量比较，并使用指数衰减相对方法在噪声诱导的模拟环境中训练稳健的策略。与以前的 DRL 方法相比，我们的新方法减少了训练时间并采用了更复杂的模拟环境。我们报告了 1.29 毫米的平均笛卡尔误差和 0.93 的相对衰减课程的成功率。在路径跟踪中，我们报告了噪声引起的路径跟踪任务中 1.37 毫米的平均误差。尽管在模拟中，这些结果表明在连续机器人和 CTR 的无模型控制中使用 DRL 的前景。

Field Robotics: Machine Learning

Reaching Pruning Locations in a Vine Using a Deep Reinforcement Learning Policy
我们概述了一个基于神经网络的管道，用于感知、控制和规划 7 自由度机器人，以完成涉及伸入休眠葡萄树冠的任务。所提出的系统由一个 6 DoF 工业机器人手臂和一个可以在整个葡萄藤上驱动的线性滑块组成。我们的方法使用卷积神经网络来检测休眠葡萄藤中的芽，并使用基于强化学习的控制策略来达到修剪任务所需的切割点位置。在此框架内，开发并比较了三种方法以到达所需位置：基于学习的策略方法 (RL)、使用学习策略和逆运动学求解器 (RL+IK) 的混合方法，最后是经典方法常用于机器人领域。我们首先在类似于实验室条件的模拟环境中测试并验证了所提出的学习方法的适用性。对于代理在学习时观察到的藤蔓，RL 和 RL+IK 方法的到达准确率分别高达 61.90% 和 85.71%。在新葡萄藤上进行测试时，RL 和 RL+IK 的准确率分别高达 66.66% 和 76.19%。然后将相同的方法以端到端程序部署在真实系统上：使用视觉系统自主扫描葡萄藤，创建模型，最后使用学习策略到达切割点。在这些测试中获得的到达准确率为 73.08%。

Field Robotics: Mobile Robots

Online Velocity Fluctuation of Off-Road Wheeled Mobile Robots: A Reinforcement Learning Approach
在轮式移动机器人在抓地力较差的情况下进行越野路径跟踪期间，应限制纵向速度以在有限的跟踪误差下保持安全导航，同时要足够高以最小化行驶时间。因此，本文提出了一种在线速度波动的新方法，能够将横向误差限制在给定阈值以下，同时最大化纵向速度。这是使用经过强化学习方法训练的神经网络来完成的。这种速度调制与现有的基于模型的预测转向控制并排完成，使用状态估计器和动态观察器。模拟和实验结果表明跟踪误差减小。

Field Robots

A General Approach for the Automation of Hydraulic Excavator Arms Using Reinforcement Learning
本文提出了一种通用方法来推导高度非线性液压挖掘机臂的末端执行器轨迹跟踪控制器。我们不需要系统的分析模型，而是使用基于机器运行期间收集的测量值训练的神经网络模型。数据驱动模型有效地表示了执行器动力学，包括气缸到关节空间的转换。只需要各个关节之间的距离，就可以设置一个模拟来使用强化学习 (RL) 训练控制策略。该策略输出可直接应用于机器的试验阶段控制命令，无需进一步微调。建议的方法在 Menzi Muck M545 上实施，12 吨液压挖掘机，并在不同的任务空间轨迹跟踪场景中进行了测试，有和没有土壤相互作用。与需要专家工程师费力的手动调整的商业分级控制器相比，学习控制器显示出更高的跟踪精度，表明所获得的性能足以在建筑工地的实际应用中使用，并且所提出的方法为未来开辟了一条新途径机器自动化。

Hierarchical Motion Planning

A Safe Hierarchical Planning Framework for Complex Driving Scenarios Based on Reinforcement Learning
自动驾驶汽车需要处理各种交通状况并做出安全有效的决策和机动。然而，一方面，单个基于优化/采样的运动规划器无法有效地实时生成安全轨迹，特别是当附近有许多交互式车辆时。另一方面，端到端的学习方法不能保证结果的安全性。为了应对这一挑战，我们提出了一个分层行为规划框架，其中包含一组低级安全控制器和一个高级强化学习算法（H-CtRL）作为低级控制器的协调器。低级优化/基于采样的控制器保证了安全性，而高级强化学习算法使 H-CtRL 成为自适应且高效的行为规划器。为了训练和测试我们提出的算法，我们构建了一个模拟器，可以使用真实世界的数据集重现交通场景。所提出的 HCtRL 被证明在各种现实模拟场景中都是有效的，在安全性和效率方面均具有令人满意的性能。

Behavior Planning at Urban Intersections through Hierarchical Reinforcement Learning
对于自动驾驶汽车，有效的行为规划对于确保自我汽车的安全至关重要。在许多城市场景中，很难创建足够通用的启发式规则，尤其是对于一些新人类驾驶员难以应对的具有挑战性的场景。在这项工作中，我们提出了一种基于强化学习 (RL) 的行为规划结构，该结构能够在模拟城市环境中执行具有层次结构的自主车辆行为规划。层次结构[1]的应用可以满足行为规划系统的各个层次。我们的算法在选择性决策方面比基于启发式规则的方法表现得更好，例如何时在从相反方向接近的车辆之间左转，或者在接近交叉路口时由于车道阻塞或自我汽车前方的延迟而可能改变车道。这种行为很难评估为正确或不正确，但一些激进的专家人类驾驶员有效且快速地处理这种情况。另一方面，与传统的强化学习方法相比，由于在训练过程中使用了混合奖励机制和启发式探索，我们的算法的样本效率更高。结果还表明，所提出的方法比传统的 RL 方法更快地收敛到最优策略。

Human-In-The-Loop Control

End-To-End Grasping Policies for Human-In-The-Loop Robots Via Deep Reinforcement Learning
最先进的人在环机器人抓取受到肌电图 (EMG) 推理鲁棒性问题的严重影响。作为一种变通方法，研究人员一直在研究将 EMG 与其他信号集成，通常是以一种特别的方式。在本文中，我们提出了一种端到端训练策略的方法，用于人类在环机器人抓取真实到达轨迹。为此，我们在 DEXTRON (DEXTerity enviRONment) 中使用强化学习 (RL) 和模仿学习 (IL)，这是一种随机模拟环境，具有使用蒙特卡洛 (MC) 模拟方法增强和选择的真实人体轨迹。我们还提供了一个成功模型，该模型一旦在专家策略数据和 RL 策略推出转换上进行了训练，就可以提供深度策略如何工作以及何时可能会失败的透明度。

Human-Robot Interaction: Robot Navigation

Mesh Based Analysis of Low Fractal Dimension Reinforcement Learning Policies
在以前的工作中，使用我们称为网格化的过程，各种连续和混合系统的可达状态空间被近似为一组离散的状态，然后可以合成为马尔可夫链。这种方法的应用之一是分析通过强化学习获得的运动策略，朝着对所得系统的稳定性特性做出经验保证迈出一步。在另一项研究中，我们为策略上强化学习算法引入了一个修改后的奖励函数，该算法利用了推出轨迹的“分形维度”。这种奖励被证明是为了鼓励诱导个体轨迹的策略，这些轨迹可以更紧凑地表示为离散网格。在这项工作中，我们通过构建系统的可达状态空间的网格来结合这两个研究线程，该系统受到干扰并由通过修改后的奖励获得的策略控制。我们的分析表明，修改后的策略确实会产生更小的可达网格。这表明用分形维度奖励训练的代理将其具有更紧凑状态空间的理想品质转移到具有外部干扰的环境中。结果还表明，以前使用基于网格的工具来分析 RL 策略的工作可以扩展到更高维系统或更高分辨率的网格，而不是其他方式。

Decentralized Structural-RNN for Robot Crowd Navigation with Deep Reinforcement Learning
在人群中安全高效地导航是移动机器人的一项基本能力。先前关于机器人人群导航的工作假设所有代理的动态都是已知的并且定义明确的。此外，先前方法的性能在部分可观察的环境和人群密集的环境中会恶化。为了解决这些问题，我们提出了去中心化结构递归神经网络（DS-RNN），这是一种新颖的网络，可以解释人群导航中机器人决策的空间和时间关系。我们在没有任何专家监督的情况下使用无模型深度强化学习来训练我们的网络。我们证明我们的模型在具有挑战性的人群导航场景中优于以前的方法。我们成功地将在模拟器中学习到的策略转移到了真实世界的 TurtleBot 2i。

Humanoid and Bipedal Locomotion

Reinforcement Learning for Robust Parameterized Locomotion Control of Bipedal Robots
为双足机器人开发强大的步行控制器是一项具有挑战性的工作。传统的基于模型的运动控制器需要简化假设和仔细建模；任何小的错误都可能导致不稳定的控制。为了解决双足运动的这些挑战，我们提出了一个无模型的强化学习框架，用于在模拟中训练稳健的运动策略，然后可以将其转移到真正的双足 Cassie 机器人上。为了促进从模拟到真实的迁移，域随机化用于鼓励策略学习在系统动态变化中具有鲁棒性的行为。学习到的策略使 Cassie 能够执行一组多样化和动态的行为，同时也比传统控制器和先前使用残差控制的基于学习的方法更稳健。我们在多种步行行为上证明了这一点，例如跟踪目标步行速度、步行高度和转向偏航。

Humanoids and Animaloids

SimGAN: Hybrid Simulator Identification for Domain Adaptation Via Adversarial Reinforcement Learning
随着基于学习的方法朝着自动化机器人控制器设计的方向发展，将学习到的策略转移到具有不同动态的新领域（例如，模拟到真实的转移）仍然需要手动操作。本文介绍了 SimGAN，这是一个解决域适应问题的框架，它通过识别混合物理模拟器以将模拟轨迹与来自目标域的轨迹相匹配，使用学习的判别损失来解决与手动损失设计相关的限制。我们的混合模拟器结合了神经网络和传统物理模拟来平衡表达性和通用性，并减少了对 System ID 中精心选择的参数集的需求。一旦通过对抗性强化学习识别出混合模拟器，它就可以用于细化目标域的策略，无需交错数据收集和策略细化。我们表明，我们的方法在用于域适应的六个机器人运动任务上优于多个强基线。

DeepWalk: Omnidirectional Bipedal Gait by Deep Reinforcement Learning
双足行走是机器人技术中最困难但最令人兴奋的挑战之一。这些困难源于高维动力学、传感和驱动限制以及实时和计算约束的复杂性。深度强化学习 (DRL) 有望通过以最少的工艺充分利用机器人动力学来解决这些问题。在本文中，我们提出了一种新的 DRL 方法，使代理能够学习人形（双足）机器人的全向运动。值得注意的是，运动行为是由单一控制策略（单一神经网络）完成的。我们通过引入一种新的课程学习方法来实现这一点，该方法通过调度目标速度逐渐增加任务难度。此外，我们的方法不需要参考运动，这有助于将其应用于具有不同运动学的机器人，并降低整体复杂性。最后，提出了不同的模拟到真实转移策略，使我们能够将学习到的策略转移到真正的人形机器人上。

Learning and Optimization

Evolvable Motion-Planning Method Using Deep Reinforcement Learning
提出并评估了一种能够适应周围环境变化的运动规划方法。由于劳动力短缺，工厂和配送仓库的工作自动化正在取得进展。然而，在配送仓库中使用机器人进行运输操作面临一个问题。也就是说，用于设置机器人的任务，例如调整加速度以稳定运输操作，是耗时的。为了解决这个问题，我们开发了一种“可进化的机器人运动规划方法”。该方法的目的是通过让机器人根据要运输的物体的重量和重心自动学习优化的加速度来降低准备成本。实验证明，所提出的方法可以从传感器信息等时间序列数据中学习优化的加速度控制。该方法在模拟器环境中进行了评估，评估结果表明，与传统的手动调整方法相比，学习模型减少了由于机器人运动加速引起的惯性力，并将运输时间缩短了 35%。该方法还在真实机器环境中进行了评估，评估结果表明该方法可以应用于真实机器人。

Learning for Robotics

Differentiable Physics Models for Real-World Offline Model-Based Reinforcement Learning
基于模型的强化学习 (MBRL) 的一个限制是利用学习模型中的错误。黑盒模型可以以高保真度拟合复杂的动态，但它们的行为在数据分布之外是未定义的。基于物理的模型由于其信息结构的普遍有效性而更擅长外推，但由于存在未建模的现象，因此在现实世界中的拟合不足。在这项工作中，我们通过实验证明，对于基于离线模型的强化学习设置，如果机械结构已知，则基于物理的模型与高容量函数逼近器相比可能是有益的。基于物理的模型可以学习使用离线 MBRL 仅使用 4 分钟的采样数据在物理机械手上执行杯中球 (BiC) 任务。我们发现黑盒模型始终为 BiC 产生不可行的策略，因为所有预测的轨迹都偏离到物理上不可能的状态，尽管可以访问比基于物理的模型更多的数据。此外，我们将物理参数识别的方法从建模完整的多体系统推广到使用端到端自动微分的非完整动力学系统。

Decentralized Multi-Agent Pursuit Using Deep Reinforcement Learning
追逃是用一个或多个追击者捕获移动目标的问题。我们使用深度强化学习来追求具有多个受单轮运动学约束的同质代理的全方位目标。我们使用共享经验为给定数量的追随者训练策略，由每个代理在运行时独立执行。培训使用课程学习、局部代表相邻代理的广角排序，以及鼓励良好形成并结合个人和团体奖励的奖励结构。一个反应性逃避者和多达 8 个追赶者的模拟实验表明，我们基于学习的方法优于最近的强化学习技术以及经典算法的非完整适应。

Sample-Efficient Reinforcement Learning in Robotic Table Tennis
强化学习 (RL) 最近在各种计算机游戏和模拟中取得了一些令人印象深刻的成功。大多数这些成功都是基于拥有大量可供代理学习的情节。然而，在典型的机器人应用中，可行的尝试次数非常有限。在本文中，我们提出了一种应用于乒乓球机器人示例的高效样本强化学习算法。在乒乓球比赛中，每一次击球都是不同的，有不同的位置、速度和旋转。因此，必须根据高维连续状态空间找到准确的回报。为了使在少数试验中学习成为可能，该方法被嵌入到我们的机器人系统中。这样我们就可以使用一步到位的环境了。状态空间取决于击球时的球（位置、速度、旋转），动作是球拍状态（方向、速度）在击球。为加速学习开发了一种基于actor-critic 的确定性策略梯度算法。在许多具有挑战性的场景中，我们的方法在模拟和真实机器人上都具有竞争力。在 200 次以下的训练中，无需预训练即可获得准确的结果。展示我们实验的视频可在 https://youtu.be/uRAtdoL6Wpw 获得。

Super-Human Performance in Gran Turismo Sport Using Deep Reinforcement Learning
自动驾驶赛车是机器人技术的一项重大挑战。它为经典方法提出了基本问题，例如在不确定的动态下规划最短时间轨迹并将汽车控制在其操纵极限。此外，最小化单圈时间的要求，这是一个稀疏的目标，以及从人类专家那里收集训练数据的困难，也阻碍了研究人员直接应用基于学习的方法来解决问题。在目前的工作中，我们通过利用高保真物理汽车模拟、课程进度代理奖励和深度强化学习，提出了一种基于学习的自动赛车系统。我们在 Gran Turismo Sport 中部署我们的系统，这是一款世界领先的汽车模拟器，以其对不同赛车和赛道的逼真物理模拟而闻名，这甚至被用来招募人类赛车手。我们训练有素的策略实现了超越内置 AI 迄今为止所取得的自主赛车性能，同时，在超过 50,000 名人类玩家的数据集中，其表现优于最快的车手。

Learning in Control

Sample Efficient Reinforcement Learning Via Model-Ensemble Exploration and Exploitation
基于模型的深度强化学习在各种需要高样本效率的领域取得了成功，例如围棋和机器人。然而，仍然存在一些问题，例如规划有效的探索以学习更准确的动态模型、评估学习模型的不确定性以及更合理地利用模型。为了缓解这些问题，我们提出了 MEEE，这是一种由乐观探索和加权利用组成的模型集成方法。在探索过程中，与先前的方法直接选择最大化预期累积回报的最佳行动不同，我们的代理首先生成一组行动候选，然后寻找同时考虑预期回报和未来观察新颖性的最佳行动。在开发过程中，根据模型不确定性分别为想象的转换元组分配不同的折扣权重，这将防止模型预测误差在代理训练中传播。对几个具有挑战性的连续控制基准任务的实验表明，我们的方法优于其他无模型和基于模型的最先进方法，尤其是在样本复杂性方面。

Dreaming: Model-Based Reinforcement Learning by Latent Imagination without Reconstruction
在本文中，我们提出了 Dreamer 的无解码器扩展，这是一种领先的基于模型的像素强化学习 (MBRL) 方法。Dreamer 是一种用于机器人学习的样本且具有成本效益的解决方案，因为它用于训练基于变分自动编码器的潜在状态空间模型，并通过潜在轨迹想象进行策略优化。然而，这种基于自动编码的方法通常会导致对象消失，其中自动编码器无法感知解决控制任务的关键对象，从而显着限制了 Dreamer 的潜力。这项工作旨在通过去除解码器来缓解这个 Dreamer 的瓶颈并提高其性能。为此，我们首先从 Dreamer 的证据下限推导出对比学习的无可能性和 InfoMax 目标。第二，我们将两个组件，（i）独立线性动力学和（ii）随机作物数据增强，加入到学习方案中，以提高训练性能。与 Dreamer 和其他最近的无模型强化学习方法相比，我们新设计的带有 InfoMax 且不带生成解码器（Dreaming）的 Dreamer 在 5 个困难的模拟机器人任务中取得了最好的成绩，其中 Dreamer 遭受了对象消失的困扰。

Learning in Robotics and Automation

Multi-Modal Mutual Information (MuMMI) Training for Robust Self-Supervised Deep Reinforcement Learning
这项工作的重点是使用多个可能不可靠的传感器学习有用且强大的深度世界模型。我们发现当前的方法不足以鼓励模态之间的共享表示；这可能会导致下游任务的性能不佳以及对特定传感器的过度依赖。作为一种解决方案，我们提供了一种新的多模态深度潜在状态空间模型，该模型使用互信息下限进行训练。关键创新是一个专门设计的密度比估计器，它鼓励每个模态的潜在代码之间的一致性。我们的任务是在多模式 Natural MuJoCo 基准和具有挑战性的 Table Wiping 任务上学习策略（以自我监督的方式）。实验表明我们的方法明显优于最先进的深度强化学习方法，

Learning-Based Control

Distilling a Hierarchical Policy for Planning and Control Via Representation and Reinforcement Learning
我们提出了一个分层规划和控制框架，使代理能够执行各种任务并灵活地适应新任务。提议的框架 DISH 不是为每个特定任务学习单独的策略，而是通过表示和强化学习从一组任务中提取分层策略。该框架基于潜变量模型的思想，该模型使用低维潜变量表示高维观察。由此产生的策略由两个层次结构组成：（i）一个计划模块，它推理一系列潜在意图，导致乐观的未来；（ii）一个反馈控制策略，在任务之间共享，执行推断的意图。因为规划是在低维潜在空间中进行的，学习到的策略无需额外培训即可立即用于解决或适应新任务。我们证明了所提出的框架可以在解决少量模仿任务的同时学习紧凑的表示（具有 197 和 36 维状态特征和动作的类人机器人的 3 维和 1 维潜在状态和命令），并且生成的策略直接适用于其他类型的任务，即杂乱环境中的导航。

Reachability-Based Trajectory Safeguard (RTS): A Safe and Fast Reinforcement Learning Safety Layer for Continuous Control
强化学习 (RL) 算法通过反复试验推理长期累积奖励，在决策和控制任务中取得了显着的性能。然而，在 RL 训练期间，将这种试错法应用于在安全关键环境中运行的真实机器人可能会导致碰撞。为了应对这一挑战，这封信提出了一种基于可达性的轨迹保障 (RTS)，它利用可达性分析来确保训练和操作期间的安全。给定一个已知（但不确定）的机器人模型，RTS 预先计算机器人的前向可达集，跟踪参数化轨迹的连续体。在运行时，RL 代理从这个连续体中以后退的方式选择来控制机器人；FRS 用于识别代理的选择是否安全，并调整不安全的选择。该方法的有效性在三个非线性机器人模型（包括 12 维四旋翼无人机）的静态环境中进行了仿真，并与最先进的安全运动规划方法进行了比较。

Learning Variable Impedance Control Via Inverse Reinforcement Learning for Force-Related Tasks
许多操作任务需要机器人与未知环境进行交互。在此类应用中，根据不同任务阶段和环境约束调整阻抗的能力对于安全性和性能至关重要。尽管已经提出了许多基于深度强化学习 (RL) 和从演示中学习 (LfD) 的方法来获得接触丰富的操作任务的可变阻抗技能，但这些技能通常是特定于任务的，并且可能对任务设置的变化敏感。这封信提出了一种基于逆强化学习 (IRL) 的方法，以从专家演示中恢复可变阻抗策略和奖励函数。我们探索奖励函数的不同动作空间，以实现专家可变阻抗技能的更一般表示。在模拟和真实的 FANUC LR Mate 200iD/7 L 工业机器人上进行了两种可变阻抗任务（Peg-in-Hole 和 Cup-on-Plate）的实验。与行为克隆和基于力的 IRL 的比较结果证明，在增益动作空间中学习的奖励函数比在力空间中具有更好的可迁移性。实验视频可在 https://msc.berkeley.edu/research/impedance-irl.html 获得。

Learning-Based Manipulation

Living Object Grasping Using Two-Stage Graph Reinforcement Learning
活的物体很难抓握，因为它们可以在被接触时甚至在被接触之前通过扭动或变形来主动躲避和挣扎，而建模或预测它们对抓握的反应是极其困难的。这封信提出了一种基于强化学习 (RL) 的算法来解决这个具有挑战性的问题。考虑到活体抓取的复杂性，我们将整个任务分为抓取前和在手两个阶段，让算法在两个阶段之间自动切换。预抓取阶段旨在找到机器人手接近活体以执行抓取的良好姿势。提出了密集奖励函数，以促进基于手和物体的姿势学习右手动作。由于手中的物体可能难以逃脱，机械手需要调整其配置并正确响应物体的运动。因此，在手阶段的目标是确定手指配置的适当调整，以便机器人手继续握住物体。在这个阶段，我们将机器人手视为一个图，并使用图卷积网络（GCN）来确定手部动作。我们通过模拟和真实实验测试了我们的算法，这表明它在活体抓取方面具有良好的性能。更多结果可在我们的网站上获得：https://sites.google.com/view/graph-rl。

Reinforcement Learning for Robotic Assembly Using Non-Diagonal Stiffness Matrix
联系人丰富的任务，其中在一系列操作中发生多个联系人转换，已被广泛研究用于任务自动化。精密装配是接触丰富任务的典型例子，需要高时间常数来应对接触状态的变化。因此，这封信提出了一种用于具有高时间常数的精密装配的局部轨迹规划方法。因为刚度矩阵的非对角分量可以在高采样频率下引起运动，我们使用这个概念来设计一个刚度矩阵来指导物体的运动，并提出一种控制它的方法。我们引入强化学习 (RL) 来选择刚度矩阵，因为所需方向和传感器响应之间的关系难以建模。由于局部轨迹修改的高时间常数，具有用于 RL 和导纳控制的各种采样率的架构具有快速响应的优势。该方法的有效性在两个接触丰富的任务上得到了实验验证：将销钉插入孔中和插入齿轮。使用所提出的方法，将钉子插入孔中所需的平均总时间为 1.64 秒，不到现有最先进研究报告的最佳时间的一半。

Uncertainty-Aware Contact-Safe Model-Based Reinforcement Learning
这封信介绍了用于机器人应用程序的基于接触安全模型的强化学习 (MBRL)，可在学习过程中实现接触安全行为。在典型的 MBRL 中，由于样本稀缺，我们不能期望数据驱动模型在学习过程中为预期的机器人任务生成准确可靠的策略。在接触较多的环境中操作这些不可靠的策略可能会对机器人及其周围环境造成损害。为了减轻意外密集物理接触造成损害的风险，我们提出了接触安全 MBRL，它将概率模型预测控制 (pMPC) 控制限制与模型不确定性相关联，以便根据学习进度调整受控行为的允许加速. 使用计算效率高的近似 GP 动力学和近似推理技术将具有这种不确定性感知控制限制的控制规划表述为确定性 MPC 问题。我们的方法的有效性是通过模拟和真实机器人的碗混合任务来评估的，真实机器人的舀取任务作为接触丰富的操作技能的例子。

Reducing the Deployment-Time Inference Control Costs of Deep Reinforcement Learning Agents Via an Asymmetric Architecture
深度强化学习 (DRL) 已被证明可以在几个具有挑战性的决策和控制任务中提供有希望的结果。然而，深度神经网络 (DNN) 所需的推理成本可能会阻止 DRL 应用于无法承受高能耗计算的移动机器人。为了使 DRL 方法在这种能量有限的平台上能够负担得起，我们提出了一种非对称架构，通过在计算成本高的策略和经济策略之间切换来降低整体推理成本。在许多用于机器人控制任务的代表性基准套件上评估的实验结果表明，我们的方法能够降低推理成本，同时保持代理的整体性能。

Total Singulation with Modular Reinforcement Learning
抓取机器人在杂乱中抓取目标物体具有挑战性，因为在这种情况下，目标会接触其他物体，导致缺乏无碰撞抓取可供性。为了解决这个问题，我们提出了一种模块化强化学习方法，该方法使用连续动作将目标对象从其周围的杂波中完全分离出来。高级策略在推送原语之间进行选择，这些原语是单独学习的。先验知识通过动作原语和特征选择有效地融入学习，提高了样本效率。实验表明，所提出的方法在单一化任务中大大优于最先进的方法。此外，尽管训练是在模拟中进行的，但学习到的策略被稳健地转移到真实环境中，成功率没有显着下降。最后，通过轻松添加新的原语并仅重新训练高级策略来解决不同环境中的单一化任务。

Machine Learning Method for Navigation

DWA-RL: Dynamically Feasible Deep Reinforcement Learning Policy for Robot Navigation among Mobile Obstacles
我们提出了一种新颖的基于深度强化学习 (DRL) 的策略，用于计算机器人在移动障碍物之间导航的动态可行和空间感知速度。我们的方法结合了动态窗口方法 (DWA) 在满足机器人动力学约束方面的优势，以及可以很好地处理移动障碍物和行人的最先进的基于 DRL 的导航方法。我们的公式通过将环境障碍物的运动嵌入到新的低维观察空间中来实现这些目标。它还使用一种新颖的奖励功能来积极增强使机器人远离障碍物前进方向的速度，从而显着降低碰撞次数。我们在现实的 3-D 模拟环境中评估我们的方法，并在具有多个步行行人的具有挑战性的密集室内场景中的真实差分驱动机器人上评估我们的方法。我们将我们的方法与最先进的防撞方法进行比较，并观察到成功率（最多增加 33%）、违反动态约束的次数（最多减少 61%）和平滑度方面的显着改进。我们还进行消融研究以突出我们的观察空间公式和奖励结构的优势。

Reinforcement Learning for Autonomous Driving with Latent State Inference and Spatial-Temporal Relationships
深度强化学习 (DRL) 为在复杂的自动驾驶场景中学习导航提供了一种有前途的方法。然而，识别可以指示截然不同的结果的微妙线索仍然是设计在人类环境中运行的自治系统的一个悬而未决的问题。在这项工作中，我们表明，在强化学习框架中明确推断潜在状态和编码时空关系可以帮助解决这一难题。我们通过将强化学习器与监督学习器相结合的框架，对其他驱动程序的潜在状态的先验知识进行编码。此外，我们通过图神经网络 (GNN) 对不同车辆之间传递的影响进行建模。

Machine Learning for Robotic Applications

Robot in a China Shop: Using Reinforcement Learning for Location-Specific Navigation Behaviour
机器人需要能够在多种不同的环境中工作。即使在执行类似任务时，也应部署不同的行为以最适合当前环境。在本文中，我们提出了一种新的导航方法，将其视为多任务学习问题。这使机器人能够学习在不同环境的视觉导航任务中表现出不同的行为，同时还可以学习跨环境的共享专业知识。我们在模拟环境和真实世界数据中评估了我们的方法。我们的方法允许我们的系统在训练时间减少 26% 的情况下收敛，同时也提高了准确性。

Real-Time Trajectory Adaptation for Quadrupedal Locomotion Using Deep Reinforcement Learning
我们提出了一种控制架构，用于实时适应和跟踪使用地形感知轨迹优化求解器生成的轨迹。这种方法使我们能够规避在线轨迹优化的计算详尽的任务，并进一步引入了一种对使用近似动力学建模的系统具有鲁棒性的控制解决方案。我们使用深度强化学习 (RL) 训练策略，将附加偏差引入参考轨迹，以便为四足机器人生成基于反馈的轨迹跟踪系统。我们在大量模拟地形上训练该策略，并通过引入避免过度拟合和收敛到局部最优的训练方法来确保其通用性。此外，为了捕捉地形信息，我们在 RL 环境的观察空间中包含高度图的潜在表示，作为外部感受反馈的一种形式。我们通过使用基于模型的全身控制器跟踪校正的设定点来测试我们训练的策略的性能，并将其与在几个模拟环境中没有校正反馈的情况下获得的跟踪行为进行比较，并表明引入校正反馈导致增加在平坦地形上跟踪预先计算的动态长地平线轨迹的成功率从 72.7% 到 92.4%，在复杂的模块化不平坦地形上从 47.5% 到 80.3%。

Manipulation: Reinforcement Learning

Shaping Rewards for Reinforcement Learning with Imperfect Demonstrations Using Generative Models
无模型强化学习对真实机器人系统的潜在好处受限于其不知情的探索，导致收敛缓慢、缺乏数据效率以及与环境的不必要交互。为了解决这些缺点，我们提出了一种结合强化和模仿学习的方法，通过使用生成模型塑造奖励函数和从演示数据中训练出来的状态和动作相关的潜力。我们表明，这通过指定值得首先探索的状态和行动空间的高价值区域来加速政策学习。与假设最佳演示并将演示数据合并为策略优化的硬约束的大多数现有方法不同，相反，我们将演示数据作为建议，以奖励塑造潜力的形式作为状态和行动的生成模型进行训练。特别是，我们检查了规范化流和生成对抗网络来代表这些潜力。我们表明，与许多将演示作为硬约束合并的现有方法不同，我们的方法即使在次优和嘈杂的演示中也是公正的。我们提供了广泛的模拟，以及在 Franka Emika 7DOF 臂上的实验，以证明我们方法的实用性。

DisCo RL: Distribution-Conditioned Reinforcement Learning for General-Purpose Policies
我们是否可以使用强化学习来学习可以执行各种不同任务的通用策略，从而获得灵活且可重用的技能？上下文策略原则上提供了这种能力，但是上下文的表示决定了泛化和表达的程度。分类上下文排除了对全新任务的泛化。以目标为条件的策略可以实现一些泛化，但不能捕获所有可能需要的任务。在本文中，我们提出目标分布作为适用于上下文策略的通用且广泛适用的任务表示。目标分布在某种意义上是通用的，当配备适当的分布类别时，它们可以表示任何基于状态的奖励函数，而分发类的特定选择允许我们权衡表达性和可学习性。我们开发了一种称为分布条件强化学习 (DisCo RL) 的离策略算法来有效地学习这些策略。我们在各种机器人操作任务上评估 DisCo RL，发现它在需要泛化到新目标分布的任务上明显优于先前的方法。

Recovery RL: Safe Reinforcement Learning with Learned Recovery Zones
安全仍然是阻碍 RL 在现实世界中广泛使用的主要障碍：在不确定的环境中学习新任务需要广泛的探索，但安全需要限制探索。我们提出了 Recovery RL，该算法通过以下方式进行权衡：(1) 在策略学习之前利用离线数据了解违反约束的区域；(2) 将提高任务性能和约束满足的目标分离到两个策略：一个任务策略仅优化任务奖励和恢复策略，在可能违反约束时引导代理安全。我们在 6 个模拟域上评估 Recovery RL，包括两个接触丰富的操作任务和一个基于图像的导航任务，以及一个物理机器人上的基于图像的避障任务。我们将 Recovery RL 与 5 种先前的安全 RL 方法进行比较，这些方法通过约束优化或奖励塑造联合优化任务性能和安全性，发现 Recovery RL 在所有领域都优于次优的先验方法。结果表明，Recovery RL 在模拟领域中权衡约束违反和任务成功的效率提高了 2-20 倍，在物理实验中效率提高了 3 倍。有关视频和补充材料，请参见 https://tinyurl.com/rl-recovery。

LASER: Learning a Latent Action Space for Efficient Reinforcement Learning
学习操作任务的过程在很大程度上取决于用于探索的动作空间：在不正确的动作空间中，使用强化学习解决任务可能会非常低效。此外，相似的任务或同一任务族的实例对最有效的动作空间施加潜在的流形约束：任务族可以通过机器人整个动作空间的流形中的动作来最好地解决。结合这些见解，我们提出了 LASER，这是一种学习潜在动作空间以进行有效强化学习的方法。LASER将学习问题分解为两个子问题，即动作空间学习和新动作空间中的策略学习。它利用来自类似操作任务实例的数据，无论是来自离线专家还是在策略学习期间在线，并从这些轨迹中学习从原始动作空间到潜在动作空间的映射。LASER 被训练为变分编码器 - 解码器模型，以将原始动作映射到解耦的潜在动作空间，同时保持动作重建和潜在空间动态一致性。我们在模拟中对两个接触丰富的机器人任务评估 LASER，并分析策略学习在生成的潜在动作空间中的好处。与原始动作空间相比，我们展示了提高的样本效率，因为我们通过学习动作空间流形的可视化观察到动作空间与任务空间的更好对齐。其他详细信息：pair.toronto.edu/laser LASER

Multi-Step Recurrent Q-Learning for Robotic Velcro Peeling
学习对象操作是机器人与环境交互的一项关键技能。尽管在机器人操纵刚性物体方面取得了重大进展，但与非刚性物体的交互对于机器人来说仍然具有挑战性。在这项工作中，我们介绍了魔术贴剥离作为机器人在复杂环境中操纵非刚性物体的新应用。我们提出了一种方法，通过使用多步深度循环网络对测量之间的长期依赖关系进行建模，在部分可观察的环境中从嘈杂和不完整的传感器输入中学习基于力的操作。我们在真实机器人上进行了实验，以展示对这些长期依赖关系建模的必要性，并验证我们在模拟和机器人实验中的方法。

Reset-Free Reinforcement Learning Via Multi-Task Learning: Learning Dexterous Manipulation Behaviors without Human Intervention
强化学习 (RL) 算法原则上可以通过从现实世界中通过反复试验收集的大量数据中学习来获得复杂的机器人技能。然而，大多数 RL 算法使用精心设计的设置来收集数据，需要人工监督和干预以提供情节重置。这在具有挑战性的机器人问题中尤其明显，例如灵巧操作。为了使数据收集具有可扩展性，此类应用程序需要能够自主学习的无复位算法，无需显式仪器或人工干预。该领域的大多数先前工作都处理单任务学习。但是，我们可能还需要能够执行大量技能的机器人。起初，这似乎只会使问题变得更加困难。实际上，解决多任务问题可以直接解决无重置问题，因为任务的不同组合可以用于为其他任务执行重置。通过一起学习多个任务并适当地对它们进行排序，我们可以有效地一起学习所有任务而无需重置。正如我们在实验中所展示的，这种类型的多任务学习可以有效地将免重置学习方案扩展到更复杂的问题。

Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with Deep Reinforcement Learning
收集数据引起的模型偏差阻碍了基于模型的强化学习算法的实质性进步，这通常会损害性能。同时，它们固有的样本效率保证了大多数机器人应用的实用性，从而限制了训练期间对机器人及其环境的潜在损害。受信息论模型预测控制和深度强化学习进步的启发，我们介绍了模型预测演员-评论家（MoPAC） † ，一种基于模型/无模型的混合方法，将模型预测推出与策略优化相结合，以减轻模型偏差。MoPAC 利用最优轨迹来指导策略学习，但通过其无模型方法进行探索，使算法能够学习更具表现力的动态模型。这种组合可确保最佳技能学习达到近似误差，并减少与环境的必要物理交互，使其适用于真实机器人训练。我们提供了广泛的结果，展示了我们提出的方法通常如何优于当前最先进的方法，并通过评估 MoPAC 在执行瓣膜旋转和手指步态的物理机器人手上的学习得出结论——这项任务需要抓取、操作，然后重新抓取一个东西。

Batch Exploration with Examples for Scalable Robotic Reinforcement Learning
从各种离线数据集中学习是学习通用机器人代理的一条有希望的途径。然而，这种范式的核心挑战在于收集大量有意义的数据，而不是依赖于循环中的人来收集数据。解决这一挑战的一种方法是通过与任务无关的探索，其中代理尝试在没有特定于任务的奖励功能的情况下进行探索，并收集可用于任何后续任务的数据。虽然这些方法在简单领域显示出一些前景，但它们通常难以在更具挑战性的环境中探索状态空间的相关区域，例如基于视觉的机器人操作。这一挑战源于一个鼓励探索潜在广阔状态空间中的一切的目标。为了缓解这一挑战，我们建议使用弱人工监督将探索重点放在状态空间的重要部分。具体来说，我们提出了一种探索技术，即带示例的批量探索 (BEE)，该技术在少量人类提供的重要状态图像的指导下探索状态空间的相关区域。这些人工提供的图像只需要在数据收集开始时提供一次，并且可以在几分钟内获取，使我们能够可扩展地收集不同的数据集，然后可以与任何批量 RL 算法相结合。我们发现 BEE 能够在模拟和真实的 Franka Emika Panda 机器人上处理具有挑战性的基于视觉的操作任务。

Model Learning for Control

Nonholonomic Yaw Control of an Underactuated Flying Robot with Model-Based Reinforcement Learning
非完整控制是控制具有路径相关状态的非线性系统的一种候选方法。我们研究了一种驱动不足的飞行微型飞行器，即 ionocraft，它需要在偏航方向进行非完整控制以实现完整的姿态控制。部署分析控制律涉及大量工程设计，并且对系统模型中的不准确性很敏感。通过对装配和系统动力学的特定假设，我们推导出了一个用于离子飞行器偏航控制的李括号。与分析控制律所需的大量工程工作相比，我们在模拟飞行任务中实现了基于数据驱动的基于模型的强化学习偏航控制器。我们证明了一个简单的基于模型的强化学习框架可以在几分钟的飞行数据中匹配派生的李括号控制（偏航率和选择的动作），而无需预定义的动力学函数。这封信表明，基于学习的方法可用作合成非线性控制律的工具，以前只能通过基于专家的设计来解决。

Motion Planning and Control

Reinforcement Learning-Based Visual Navigation with Information-Theoretic Regularization
为了增强基于深度强化学习 (RL) 的目标驱动视觉导航的跨目标和跨场景泛化，我们在 RL 目标中引入了信息论正则化项。正则化最大化了导航动作和代理的视觉观察转换之间的互信息，从而促进更明智的导航决策。通过这种方式，代理通过学习变分生成模型来模拟动作观察动力学。基于该模型，代理从其当前观察和导航目标生成（想象）下一个观察。通过这种方式，智能体学会理解导航动作之间的因果关系及其观察结果的变化，这允许代理通过比较当前和想象的下一个观察结果来预测导航的下一个动作。对 AI2-THOR 框架的跨目标和跨场景评估表明，我们的方法比一些最先进的模型至少提高了 10% 的平均成功率。我们在两个真实世界设置中进一步评估我们的模型：从离散的主动视觉数据集 (AVD) 中的看不见的室内场景中导航和使用 TurtleBot 的连续真实世界环境。我们证明了我们的导航模型能够在这些场景中成功实现导航任务。

Motion Planning for Surgical Robots

Bimanual Regrasping for Suture Needles Using Reinforcement Learning for Rapid Motion Planning
重新抓住缝合针是缝合过程中一个重要但耗时的过程。为了提高重新抓握的效率，之前的工作要么设计一个特定于任务的机制，要么将夹具引导到某个特定的拾取点，以便正确抓握针头。然而，当工作空间发生变化时，这些方法通常无法部署。因此，在这项工作中，我们提出了通过强化学习 (RL) 快速生成双手针重新抓握的轨迹。结合了基于采样的运动规划算法的演示以加快学习速度。此外，我们为这个双手规划问题提出了以自我为中心的状态和动作空间，其中参考框架位于末端执行器上，而不是某个固定框架。因此，学习到的策略可以直接应用于任何可行的机器人配置。我们的仿真实验表明，单次通过的成功率为 97%，规划时间平均为 0.0212 秒，优于其他广泛使用的运动规划算法。对于真实世界的实验，如果针位从 RGB 图像重建，成功率为 73.3%，规划时间为 0.0846 秒，运行时间为 5.1454 秒。如果事先知道针位，则成功率为 90.5%，计划时间为 0.0807 秒，运行时间为 2.8801 秒。

Motion Planning: Learning

Remote-Center-Of-Motion Recommendation Toward Brain Needle Intervention Using Deep Reinforcement Learning
脑针干预是脑部疾病（例如脑肿瘤和帕金森病）的特定诊断和治疗程序。术前针路规划是保证患者安全、减少病变的重要步骤。为了在 CT/MRI 环境中定位精度，我们在之前的工作中开发了一种新型针介入机器人。由于机器人目前是为刚性针设计的，因此术前路径规划的任务是寻找用于针插入的最佳远程运动中心 (RCM)。因此，这项工作提出了一种使用深度强化学习的 RCM 推荐系统。考虑到机器人运动学，该系统考虑了以下标准/约束：临床障碍（血管、组织）回避（COA），机器人的机械逆运动学（MIK）和机械少运动（MLM）。我们设计了一个奖励函数，将上述三个标准根据其相应的重要性级别结合起来，并利用近端策略优化（PPO）作为强化学习（RL）的主要代理。RL 方法被证明能够胜任同时满足上述标准的 RCM 搜索。一方面，结果表明 RL 智能体完成设计任务的成功率为 93%，在测试中达到了人类水平。另一方面，RL 智能体具有在未来工作中结合更复杂标准/约束的非凡能力。

Autonomous Navigation of an Ultrasound Probe towards Standard Scan Planes with Deep Reinforcement Learning
自主超声 (US) 采集是一项重要但具有挑战性的任务，因为它涉及解释高度复杂和可变的图像及其空间关系。在这项工作中，我们提出了一个深度强化学习框架，以基于实时图像反馈自主控制虚拟 US 探头的 6-D 姿态，以在现实世界 US 扫描的限制下导航到标准扫描平面。此外，我们提出了一种基于置信度的方法来编码学习过程中图像质量的优化。我们在一个模拟环境中验证我们的方法，该模拟环境使用在美国脊柱成像中收集的真实数据构建。实验结果表明，我们的方法可以以 4.91mm/4 的精度对标准扫描平面执行可重复的 US 探针导航。65°，在患者内和患者间环境中完成任务，成功率分别为 92% 和 46%。结果还表明，在我们的方法中引入图像质量优化可以有效地提高导航性能。

Novel Applications

Autonomous Overtaking in Gran Turismo Sport Using Curriculum Reinforcement Learning
专业的赛车手可以执行极端的超车动作。然而，现有的自动超车算法要么依赖于关于车辆动力学的简化假设，要么尝试在线解决昂贵的轨迹优化问题。当车辆接近其物理极限时，现有的基于模型的控制器难以处理高度非线性的动态，并且无法利用模拟或现实世界驾驶生成的大量数据。为了规避这些限制，我们提出了一种新的基于学习的方法来解决自动超车问题。我们在流行的赛车游戏 Gran Turismo Sport 中评估我们的方法，该游戏以其对各种汽车和赛道的详细建模而闻名。通过利用课程学习，与普通强化学习相比，我们的方法可以加快收敛速度并提高性能。因此，经过训练的控制器优于内置的基于模型的游戏 AI，并与经验丰富的人类驾驶员实现了相当的超车性能。

Pose Estimation

Reinforcement Learning for Orientation Estimation Using Inertial Sensors with Performance Guarantee
本文提出了一种深度强化学习 (DRL) 算法，用于使用惯性传感器与磁力计相结合的方向估计。控制理论中的李雅普诺夫方法被用来证明方向估计误差的收敛性。估计器增益和 Lyapunov 函数由深度神经网络参数化，并根据理论结果从样本中学习。在数值模拟和从商用传感器收集的真实数据集上，将 DRL 估计器与三种众所周知的方向估计方法进行了比较。结果表明，所提出的算法对于任意估计初始化具有优越性，并且可以适应其他算法几乎无法适用的剧烈角速度分布。

Reinforcement Learning for Robotics

Model-Free Reinforcement Learning for Stochastic Games with Linear Temporal Logic Objectives
我们研究了未知环境中线性时序逻辑 (LTL) 目标的控制策略综合。我们将此问题建模为控制器与环境之间基于回合的零和随机博弈，其中转移概率和模型拓扑完全未知。该游戏中控制器的获胜条件是满足给定的 LTL 规范，这可以通过直接从 LTL 规范导出的确定性拉宾自动机 (DRA) 的接受条件来捕获。我们引入了一种无模型强化学习 (RL) 方法，以找到一种策略，当派生的 DRA 的拉宾条件具有单个接受对时，该策略最大化满足给定 LTL 规范的概率。然后我们将这种方法推广到任何 LTL 公式，Rabin 接受条件可能有不止一对，从而提供了满足概率的下限。最后，我们展示了我们的 RL 方法在两个规划案例研究中的适用性。

Secure Planning against Stealthy Attacks Via Model-Free Reinforcement Learning
我们考虑在未知随机环境中的安全意识规划问题，存在对机器人控制信号（即执行器）的攻击。我们将攻击者建模为一个代理，他对控制器以及所使用的入侵检测系统有充分的了解，并且希望在保持隐身的同时阻止控制器执行任务。我们将问题表述为攻击者和控制器之间的随机博弈，并提出一种将这种代理和控制器的目标表达为组合线性时序逻辑 (LTL) 公式的方法。然后，我们展示了规划问题，正式描述为在随机游戏中满足 LTL 公式的问题，可以在环境完全未知时通过无模型强化学习来解决。

Harmonic-Based Optimal Motion Planning in Constrained Workspaces Using Reinforcement Learning
在这项工作中，我们提出了一种新的强化学习算法来解决最优运动规划问题。特别强调了对积分二次成本函数的安全性、收敛性和最优性的严格数学证明，同时采用强化学习来实现成本函数的近似。提出了离线和在线解决方案，并将离线方法的实现与最先进的 RRT* 方法进行了比较。这种新颖的方法继承了人工势场（即反应性）和基于采样的方法（即最优性）的强大特征，并通过融合现代工具和哲学为运动规划的古老问题开辟了新途径从球场的各个角落。

Reward Learning from Very Few Demonstrations
本文介绍了一种新颖的技能学习框架，该框架从很少的演示中学习奖励，并将其用于策略搜索 (PS) 以提高技能。演示用于学习参数化策略以执行技能和目标模型，作为隐藏马尔可夫模型 (HMM)，以监控执行。奖励是从 HMM 结构及其监控能力中学习的。HMM 被转换为有限范围马尔可夫奖励过程 (MRP)。蒙特卡罗方法用于计算其值。然后，将 HMM 和值合并为部分可观察的 MRP，以获得执行返回，以与 PS 一起使用以改进策略。除了奖励学习，还采用了具有自适应探索策略的黑盒 PS 方法。最终的框架使用五种 PS 方法和两种模拟技能进行评估。结果表明，与稀疏监测信号相比，学习到的密集奖励可以带来更好的性能，并且使用自适应探索可以更快地收敛，成功率更高，方差更低。该框架的有效性在真实机器人设置中得到验证，通过在稀疏奖励完全失败的情况下使用学习奖励提高三项技能以从完全失败中获得成功。

Hierarchies of Planning and Reinforcement Learning for Robot Navigation
通过强化学习 (RL) 解决机器人导航任务具有挑战性，因为它们的奖励稀疏且决策范围较长。但是，在许多导航任务中，可以使用高级 (HL) 任务表示，例如粗略的平面图。以前的工作已经通过分层方法证明了有效的学习，包括 HL 表示中的路径规划和使用从该计划中导出的子目标来指导源任务中的 RL 策略。然而，这些方法通常在规划过程中忽略了机器人的复杂动力学和次优次目标达到能力。这项工作通过提出一种新颖的层次框架来克服这些限制，该框架利用可训练的规划策略进行 HL 表示。因此，可以利用收集的部署数据来学习机器人能力和环境条件。我们特别介绍了一种基于价值迭代和学习转换模型 (VI-RL) 的规划策略。在模拟机器人导航任务中，VI-RL 对 vanilla RL 有持续的强劲改进，在单一布局上与 vanilla hierarchal RL 相当，但更广泛地适用于多种布局，并且与可训练的 HL 路径规划基线相当，除了停车具有困难的非完整动力学的任务，它显示出显着的改进。

Context-Aware Safe Reinforcement Learning for Non-Stationary Environments
在为现实任务部署强化学习代理时，安全性是一个关键问题。最近，已经开发出安全的强化学习算法来优化代理的性能，同时避免违反安全约束。然而，很少有研究解决环境中的非平稳干扰，这可能导致灾难性后果。在本文中，我们提出了上下文感知安全强化学习（CASRL）方法，这是一种在非平稳环境中实现安全适应的金属学习框架。我们使用概率潜变量模型来实现给定上下文数据的后验环境转换分布的快速推断。然后使用不确定性感知轨迹采样评估安全约束。先验安全约束是用领域知识制定的，以提高探索期间的安全性。该算法在具有非平稳干扰的现实安全关键环境中进行评估。结果表明，所提出的算法在安全性和鲁棒性方面明显优于现有基线。

Deep Learning Assisted Robotic Magnetic Anchored and Guided Endoscope for Real-Time Instrument Tracking
这封信介绍了在磁性锚定外科内窥镜上实施基于深度学习的仪器跟踪的第一个案例。紧凑型磁力驱动内窥镜具有独特的结构，允许在锚表面附近进行操作，是视频辅助胸腔镜手术 (VATS) 的理想选择。自主工具跟踪减轻了外科医生的负担，并防止因肌肉疲劳或沟通不畅而导致的人为错误。然而，传统方法依赖于颜色标签或需要对仪器进行修改，并且由于标记物的遮挡而存在失败的风险。在这封信中，我们将深度学习仪器检测与视觉伺服控制相结合。这允许磁性内窥镜自动跟踪手术工具，无需颜色标记或仪器修改。我们使用了一个改进的 TernausNet-16 网络，该网络可以实时检测手术器械，具有 1846 张图像的小型训练数据集。实验表明，磁性内窥镜可以有效地跟踪无标记仪器。它还可以跟踪以 40 mm/s 的速度行进的目标的连续运动。还通过在模拟胸腔中完成模拟手术任务来验证性能。

Incorporating Multi-Context into the Traversability Map for Urban Autonomous Driving Using Deep Inverse Reinforcement Learning
在城市环境中与周围的代理自动驾驶仍然具有挑战性。关键挑战之一是准确预测可遍历性地图，该地图在考虑多种环境（惯性、环境和社会）的情况下概率代表未来轨迹。为了解决这个问题，已经提出了各种方法；但是，他们主要侧重于考虑个人背景。此外，大多数研究利用昂贵的驾驶环境先验信息（如高清地图），这不是一种可扩展的方法。在这项研究中，我们扩展了一种基于深度逆强化学习的方法，该方法可以预测可遍历性图，同时结合动态环境中自动驾驶的多个上下文。而不是使用昂贵的驾驶场景先验信息，我们提出了一种新的深度神经网络来从传感数据中提取上下文线索，并将它们有效地整合到输出中，即奖励图。基于奖励图，我们的方法预测以自我为中心的可遍历性图，该图表示合理且社会可接受的未来轨迹的概率分布。所提出的方法在具有各种基线的真实交通场景中进行了定性和定量评估。实验结果表明，与其他基线方法相比，我们的方法提高了预测精度，并且可以预测类似于人类驾驶员所遵循的未来轨迹。

Quantification of Joint Redundancy Considering Dynamic Feasibility Using Deep Reinforcement Learning
执行任务的机器人关节冗余和给定冗余自由度的机器人关节的最佳使用对于机器人的性能至关重要。因此，考虑到动态可行性，量化关节冗余以更好地理解机器人灵巧性是有意义的。为此，基于模型的方法一直是分析量化简单机器人关节冗余度的最常用方法之一。然而，这种经典方法在应用于非常规复杂机器人时会失败。在这项研究中，我们提出了一种基于深度强化学习派生指标的新方法，即协同探索区域 (SEA) 指标，用于量化给定动态环境下的冗余。我们针对不同的任务使用不同的机器人结构进行了各种实验，从简单的机械臂操作到更复杂的机器人运动。实验结果表明，SEA度量可以有效量化未知动态情况下不同自由度机器人结构上的相对关节冗余度。

FISAR: Forward Invariant Safe Reinforcement Learning with a Deep Neural Network-Based Optimizer
本文研究了带约束的强化学习，这在安全关键环境中是必不可少的。为了推动约束违反单调减少，我们将约束视为 Lyapunov 函数，并对策略参数的更新动态施加新的线性约束。因此，原始安全集可以是前向不变的。然而，由于新的保证可行约束被施加在更新动态而不是原始策略参数上，经典的优化算法不再适用。为了解决这个问题，我们建议学习一个基于通用深度神经网络（DNN）的优化器来优化目标，同时满足线性约束。约束满足是通过投影到由多个线性不等式约束制定的多面体上来实现的，这可以用我们新设计的度量来解析解决。据我们所知，这是第一个基于 DNN 的优化器，用于具有前向不变性保证的约束优化。我们展示了我们的优化器训练了一个策略来减少违反约束并单调地最大化累积奖励。数值约束优化和避障导航的结果验证了理论发现。

Coding for Distributed Multi-Agent Reinforcement Learning
本文旨在减轻多智能体强化学习 (MARL) 问题的同步分布式学习中的落后者效应。在分布式学习系统中，由于存在各种系统干扰，例如计算节点的减速或故障以及通信瓶颈，因此经常出现落后者。为了解决这个问题，我们提出了一个编码分布式学习框架，它可以在落后者存在的情况下加快 MARL 算法的训练，同时保持与集中式方法相同的准确性。例如，开发和评估了多智能体深度确定性策略梯度 (MADDPG) 算法的编码分布式版本。不同的编码方案，包括最大距离可分（MDS）编码、随机稀疏编码、基于复制的编码、还研究了常规低密度奇偶校验 (LDPC) 码。几个多机器人问题的模拟证明了所提出框架的有希望的性能。

Model-Based Meta-Reinforcement Learning for Flight with Suspended Payloads
运输悬挂的有效载荷对于自动飞行器来说具有挑战性，因为有效载荷会对机器人的动力学造成重大且不可预测的变化。这些变化可能导致次优的飞行性能，甚至是灾难性的故障。尽管自适应控制和基于学习的方法原则上可以适应这些混合机器人-有效载荷系统的变化，但在飞行中快速适应具有先验未知物理特性的有效载荷仍然是一个悬而未决的问题。我们提出了一种元学习方法，可以在连接后飞行数据的几秒钟内“学习如何学习”改变动力学的模型。我们的实验表明，我们的在线适应方法在一系列具有挑战性的悬浮有效载荷运输任务上优于非自适应方法。
https://sites.google.com/view/meta-rl-for-flight

Transfer Reinforcement Learning across Homotopy Classes
机器人将所学知识转移到新任务（数据稀缺）的能力是机器人学习成功的基本挑战。虽然在监督学习的背景下，微调作为一种简单但有效的迁移方法已被充分研究，但在强化学习的背景下却没有得到很好的探索。在这项工作中，我们研究了当任务通过其奖励函数进行参数化时，迁移强化学习中的微调问题，这是事先已知的。我们推测，当源和目标轨迹是不同同伦类的一部分时，微调的性能会大大降低：我们证明，与同伦类内的微调相比，同伦类之间的微调策略参数需要与环境进行更多的交互，并且在某些情况下情况是不可能的。我们提出了一种新的微调算法，即 Ease-In-Ease-Out 微调，它由一个放松阶段和一个课程学习阶段组成，以实现跨同伦类的迁移学习。最后，我们在几个受机器人启发的模拟环境中评估我们的方法，并通过经验验证与现有基线相比，Ease-In-Ease-Out 微调方法可以成功地以样本有效的方式进行微调。

Reinforcement Learning in Navigation

A Novel Hybrid Approach for Fault-Tolerant Control of UAVs Based on Robust Reinforcement Learning
近年来，复杂自主系统的控制得到了显着改善，无人机（UAV）在研究界变得流行。尽管无人机的使用正在增加，但仍有许多工作要保证这些车辆的容错控制 (FTC) 特性。基于模型的控制器是控制无人机的标准方法，但是为无人机在现实世界场景中可能遇到的每种可能的操作条件获取系统和环境模型是不可行的。强化学习在控制复杂系统方面显示出了希望，但需要在系统的模拟器（需要模型）中进行训练。此外，基于学习的控制器不存在稳定性保证，这限制了它们在现实世界中的大规模应用。我们提出了一种新颖的混合 FTC 方法，该方法使用具有关键稳定性保证的学习监督控制器（连同低级 PID 控制器）。我们使用稳健的强化学习方法来学习监督控制参数并证明稳定性。我们使用轨迹跟踪实验（在模拟中）对遭受转子故障、风扰和严重位置和姿态噪声的四轴飞行器进行了经验验证我们的框架。

Deep Probabilistic Feature-Metric Tracking
来自 RGB-D 图像的密集图像对齐对于现实世界的应用来说仍然是一个关键问题，尤其是在具有挑战性的照明条件和宽基线设置下。在这封信中，我们提出了一个新的框架来学习由卷积神经网络 (CNN) 预测的逐像素深度特征图和深度特征度量不确定性图，它们共同形成了两个深度概率特征度量残差。可以在从粗到细的优化框架中使用 Gauss-Newton 最小化的视图约束。此外，我们的网络预测了一个深度初始姿势，以实现更快、更可靠的收敛。优化步骤是可区分的，并且展开以端到端的方式进行训练。由于其概率本质，我们的方法可以很容易地与其他残差耦合，我们展示了与 ICP 的组合。实验结果证明了 TUM RGB-D 数据集和 3D 刚性对象跟踪数据集的最新性能。我们进一步定性地证明了我们方法的鲁棒性和收敛性。

Using Reinforcement Learning to Create Control Barrier Functions for Explicit Risk Mitigation in Adversarial Environments
空战是由训练有素的专业人员操作精密设备进行的高风险活动。在此活动期间，必须进行一些权衡，例如风险和效率之间的平衡。将风险最小化的政策可能具有非常低的效率，而最大化效率的政策可能涉及非常高的风险。在这项研究中，我们使用强化学习 (RL) 创建控制屏障函数 (CBF)，以捕获当前风险，在飞机与敌方导弹之间的最坏情况未来分离。CBF 通常手动设计为封闭形式的表达式，但对于导弹等复杂系统，这是不可能的。相反，我们使用高保真仿真模型来解决 RL 问题，以找到具有 CBF 属性的值函数，然后可以用来保证真实空战情况下的安全。我们还提供了关于哪些 RL 问题系列导致可以以这种方式用作 CBF 的价值函数的理论分析。所提出的方法允许飞行员在空战场景中设置被认为可接受的暴露水平并持续监控与风险相关的风险为了他/她自己的安全。给定关于可接受风险的输入，系统将飞行员的选择限制为保证未来满足所提供界限的选择。

Edge Computing in 5G for Drone Navigation: What to Offload?
使用相机导航的小型无人机可能会因机载计算能力低而限制其速度和敏捷性。我们评估边缘计算在 5G 中对这种自主导航的作用。使用基于视觉的导航算法研究将图像处理任务卸载到边缘服务器。比较了三种计算模式：板载、完全卸载到边缘和部分卸载。与完全卸载相比，部分卸载对通信网络的传输速率要求较低，但需要一些板载处理。我们的计算时间结果有助于根据网络条件选择最适合图像处理的模式，即是否卸载以及卸载什么。

Robotic Learning with Visual Signal

Approximate Inverse Reinforcement Learning from Vision-Based Imitation Learning
在这项工作中，我们提出了一种获得基于视觉的导航的隐式目标函数的方法。所提出的方法依赖于模仿学习、模型预测控制 (MPC) 和深度神经网络中使用的解释技术。我们使用模仿学习作为进行逆向强化学习的一种手段，以便为视觉导航挑战创建一个近似的成本函数生成器。由此产生的成本函数成本图与 MPC 一起用于实时控制，并且在新环境中优于其他最先进的成本图生成器。所提出的过程允许简单的训练和对样本外数据的鲁棒性。我们将我们的方法应用于多个真实和模拟环境中基于视觉的自动驾驶任务，并展示了其普遍性。
https://youtu.be/WyJfT5lc0aQ

Soft Robotics: Control

Deep Reinforcement Learning Framework for Underwater Locomotion of Soft Robot
软体机器人是一门新兴技术，具有良好的应用前景。然而，由于用于制造软体机器人的材料的固有柔顺性，精确控制软体机器人极为复杂。在本文中，我们介绍了一种基于数据的控制框架，用于使用深度强化学习 (DRL) 解决软机器人水下运动问题。我们首先基于介电弹性体致动器（DEA）构建了一个可以游泳的软机器人。然后，我们在模拟中对其进行建模，以训练神经网络，并通过机器人的实际实验测试控制框架的性能。该框架包括以下内容：一种可用于收集数据以训练神经网络的软机器人仿真方法，在模拟环境中训练的游泳机器人的神经网络控制器，以及使用相机从真实机器人收集观察空间的计算机视觉方法。我们通过允许机器人学习如何从随机初始状态移动到特定方向，证实了该学习方法在模拟环境中的有效性。通过仿真得到训练好的神经网络后，我们将其部署在真实机器人上，并测试了控制框架的性能。软体机器人成功实现了在扰动水中直线运动的目标。实验结果表明使用深度强化学习来提高移动软机器人的运动能力的潜力。以及使用相机从真实机器人收集观察空间的计算机视觉方法。我们通过允许机器人学习如何从随机初始状态移动到特定方向，证实了该学习方法在模拟环境中的有效性。通过仿真得到训练好的神经网络后，我们将其部署在真实机器人上，并测试了控制框架的性能。软体机器人成功实现了在扰动水中直线运动的目标。实验结果表明使用深度强化学习来提高移动软机器人的运动能力的潜力。

Task Planning

Meta-Adversarial Inverse Reinforcement Learning for Decision-Making Tasks
在过去几年中，从示范中学习取得了很大进展。但是，它通常需要大量数据且特定于任务。换句话说，在特定任务上训练一个体面的模型需要大量数据，并且该模型通常无法泛化到具有不同分布的新任务。在实践中，将不断观察来自新任务的演示，并且数据可能未标记或仅部分标记。因此，训练后的模型需要适应可用数据样本有限的新任务。在这项工作中，我们构建了一个基于元学习和对抗性逆强化学习（Meta-AIRL）集成的适应性模仿学习模型。我们利用对抗学习和逆强化学习机制从可用的训练任务中同时学习策略和奖励函数，然后使用元学习框架将它们适应新任务。仿真结果表明，使用 Meta-AIRL 训练的自适应策略可以有效地从有限数量的演示中学习，并在未见过的任务上迅速达到与专家相媲美的性能。

Vision and Perception: Learning

Generalization in Reinforcement Learning by Soft Data Augmentation
通过域随机化和数据增强来提高强化学习 (RL) 方法的泛化能力已经做出了广泛的努力。然而，随着训练过程中引入更多的变异因素，优化变得越来越具有挑战性，并且根据经验可能会导致样本效率降低和训练不稳定。我们提出了 SOft Data Augmentation (SODA)，而不是直接从增强数据中学习策略，这是一种将增强与策略学习分离的方法。具体来说，SODA 对编码器施加了软约束，旨在最大化增强和非增强数据的潜在表示之间的互信息，而 RL 优化过程使用严格的非增强数据

Vision and Perception: Navigation

Autonomous Multi-View Navigation Via Deep Reinforcement Learning
在本文中，我们提出了一种新颖的深度强化学习（DRL）系统，用于移动机器人的自主导航，该系统由三个模块组成：地图导航、多视图感知和多分支控制。我们的 DRL 系统将全局规划器提供的路线图和多摄像头设置捕获的三个 RGB 图像作为输入，以分别收集全局和局部信息。特别是，我们提出了一种基于注意力机制的多视图感知模块，以过滤掉由多摄像头感知引起的冗余信息。我们还通过专门设计的网络将原始 RGB 图像替换为低维表示，这有利于更强大的 sim2real 迁移学习。在模拟和现实世界场景中的大量实验表明，我们的系统优于最先进的方法。

Towards Multi-Modal Perception-Based Navigation: A Deep Reinforcement Learning Method
在这封信中，我们提出了一种基于深度强化学习的用于局部路径规划的新型无人地面车辆 (UGV) 导航系统。导航系统将感知与控制解耦，并利用多模态感知与 UGV 周围环境进行可靠的在线交互，从而实现直接策略学习以生成灵活的动作以避免与导航中的障碍物发生碰撞。通过将原始 RGB 图像替换为其语义分割图作为输入并应用多模态融合方案，我们仅在模拟中训练的系统可以处理包含车辆和行人等动态障碍物的真实场景。我们还引入了模态分离学习来加速训练并进一步提高性能。大量实验表明，我们的方法缩小了模拟环境和真实环境之间的差距，展示了优于最先进方法的优势。请参阅 https://vsislab.github.io/mmpbnv1/ 了解模拟和现实环境中 UGV 导航的补充视频演示。

Visual Navigation in Real-World Indoor Environments Using End-To-End Deep Reinforcement Learning
视觉导航对于机器人中的许多应用都是必不可少的，从操纵到移动机器人再到自动驾驶。深度强化学习(DRL)提供了一种巧妙的无地图方法，将图像处理、定位和规划集成在一个模块中，该模块可以进行训练，从而针对给定的环境进行优化。然而，到目前为止，基于DRL的视觉导航只在模拟中得到验证，模拟器提供真实世界中无法获得的信息，例如机器人的位置或图像分割掩模。这就排除了在真实机器人上使用学习策略的可能性。因此，我们提出了一种新的方法，可以将训练好的策略直接部署到真实机器人上。我们设计了可视化的辅助任务，量身定做的奖励方案，以及一个新的强大的模拟器，以促进领域随机化。这项政策是根据从现实环境中收集的图像进行微调的。我们在一个真实的办公环境中对该方法进行了评估。在单个GPU上进行培训需要大约30个小时。在30个导航实验中，86.7%以上的情况下机器人能到达目标附近0.3米的距离。

Visual Learning

Vision-Based Mobile Robotics Obstacle Avoidance with Deep Reinforcement Learning
避障是移动机器人自主导航的一个基本且具有挑战性的问题。在本文中，我们考虑了机器人必须完全依赖单个单目相机的简单 3D 环境中的避障问题。特别是，我们有兴趣在不依赖定位、映射或规划技术的情况下解决这个问题。大多数现有工作将避障视为两个独立的问题，即障碍物检测和控制。受最近 Atari 游戏中深度强化学习的优势和理解围棋中高度复杂的情况的启发，我们将避障问题作为一种数据驱动的端到端深度学习方法来解决。我们的方法将原始图像作为输入并生成控制命令作为输出。我们表明，在类似迷宫的环境中，就预期平均奖励而言，离散动作空间的性能优于连续控制命令。此外，我们展示了如何通过生成对抗网络结合预测的深度图来加速学习并提高策略的鲁棒性。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,980评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,178评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,868评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,498评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,492评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,521评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,910评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,569评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,793评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,559评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,639评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,342评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,931评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,904评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,144评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,833评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,350评论 2赞 342