okvis：Keyframe-based visual–inertial odometry using nonlinear optimization 论文翻译及学习笔记

摘要

结合视觉和惯性测量在移动机器人领域已成为流行,因为这两个传感模型互补的特点,使他们为了SLAM的准确性选择VI。虽然历史上问题已通过过滤得到解决，但视觉估计的进步表明，非线性优化提供了更高的准确性，同时由于潜在的稀疏性问题，非线性还易于处理复杂性。从这些发现中汲取灵感，我们制定了一个严格的概率成本函数（cost function），它结合了landmarks和惯性项的重投影误差。通过边缘化将优化限制在关键帧的有界窗口，从而确保实时操作，使该问题易于处理。关键帧可以按时间间隔任意间隔，同时仍然与线性化惯性项相关。我们使用我们定制的双目视觉惯性硬件记录互补数据集的评估结果，该硬件可以将加速度计和陀螺仪测量与图像精确同步。关于地面实况，显示了我们的算法的双目和单目版本与有和没有在线外部估计的比较。此外，我们将性能与最先进implementation of a state-of-the-art stochasic cloning sliding-window filter比较。该竞争者参考实现执行基于紧耦合滤波的视觉惯性里程计。虽然我们的方法声称需要更多的计算，但我们在准确性方面表现出了卓越的性能。

1.介绍

视觉和惯性测量提供互的补特性使其特别适合融合，以解决稳健和精确的定位和建图，这是任何移动机器人系统的主要需求。投The rich representation of structure projected into an image，以及IMU中包含的陀螺仪和加速度计的准确短期估计已被公认为相互补充，具有良好的空中用例(Mourikis and Roumeliotis, 2007; Weiss et al., 2012) 和汽车(Li and Mourikis, 2012a) 导航。此外，随着大多数智能手机中这些传感器的出现，人们对视觉惯性SLAM的有效解决方案产生了极大的兴趣和研究活动(Li et al., 2013)。

fig. 1

从历史上看，在处理视觉惯性估计问题方面存在两个主要概念：批量非线性优化方法和递归滤波方法。虽然前者联合最小化了来自积分IMU测量的误差和来自视觉项的（重投影）误差(Jung and Taylor, 2001)，但递归(recursive)算法通常使用IMU测量来进行状态预积分来更新源自视觉观察(Chai et al., 2002; Roumeliotis et al., 2002)。

批处理方法(Batch approaches)提供了对视觉 - 惯性状态估计问题中涉及的固有非线性成本项(cost terms)的重复线性化的优点，因此它们限制了线性化误差。然而，长期以来，缺乏计算资源使得递归算法成为在线估计的有利选择。然而，这两种范式最近都显示出对另一种范式的改进和妥协，因此最近的工作（(Leutenegger et al., 2013; Nerurkar et al., 2013; Indelman et al., 2012) 显示基于批处理的算法达到实时操作基于批处理的方法提供基于过滤的方法，提供几乎相同质量的结果(Mourikis and Roumeliotis, 2007; Li et al., 2013)。撇开计算需求，基于批处理的方法可以提供与过滤方法相比更高精度的结果，因为本文后面将详细讨论固有的算法差异。

除了batch和filtering之外，文献中的视觉 - 惯性融合方法可以分为两类：松耦合系统通过仅视觉算法独立估计姿态，仅在单独的估算步骤中融合IMU测量，限制计算复杂性。相反，紧耦合方法包括来自IMU和摄像机的测量结果，这是共同估计所有状态的共同问题，因此考虑它们之间的所有相关性。然而，两种方法的比较表明Leutenegger et al., 2013)这些相关性对于任何高精度视觉惯性导航系统（VINS）都是关键，这也是为什么最近提出的所有高精度视觉惯性估计都实现了紧密耦合的VINS: 例如 Mourikis and Roumeliotis (2007)提出了一种基于扩展卡尔曼滤波器（EKF）的单目视觉实时融合，称为多状态约束卡尔曼滤波器（MSCKF）。这项工作令人印象深刻，开环误差低于行进距离的0.5％。因此，我们将我们的结果与Mourikis等人发表的具有动态特征边缘化的滑动窗口滤波器的实现进行比较（2009年）。为了更简单的参考，我们在本文的其余部分用“MSCKF”表示这个算法，记住可用的参考实现不包括所有可能的修改 (Li and Mourikis, 2012a,b; Li et al., 2013; Hesch et al., 2013).

本文扩展了我们之前的工作(Leutenegger et al., 2013)，我们提出了一种根据上述发现的方法：为了减少线性化导致的次优性(suboptimality)，我们提倡紧耦合融合，以便尽可能地利用所有测量和非线性优化，而不是滤波。此外，这个优化的方法允许采用稳健的成本函数(robust cost functions)，使它即使在应用复杂的拒绝方案之后，也可能在存在可能偶尔出现在视觉部分中的异常值的情况下显着地提高准确度。

我们设计了一种成本函数，它以完全概率(fully probabilistic manner)的方式结合了视觉和惯性项。我们采用关键帧概念，因为它仅在经典视觉方法中成功应用：它是使用部分线性化和边缘化实现的，即可变消除 - 对实时合规性和易处理性进行过滤的折衷。关键帧范例(The keyframe paradigm)也考虑了无抖动估计，当存在慢速或无运动时：不是使用时间连续位姿的优化窗口，我们保持的关键帧可以在时间上任意间隔，保持视觉约束 - 同时仍然包含 IMU项。尽管我们的参数化使用了全局坐标，但我们在关键帧之间的相对不确定性的表达从RSLAM(Mei et al., 2011)中获得灵感。我们提供了IMU误差项和相应信息矩阵(respective information matrix)的严格概率推导，将连续图像帧相关联，而无需以IMU速率(100hz?)明确地引入状态。在系统层级，我们开发了用于精确实时SLAM的硬件和算法，包括强大的关键点匹配，自举和异常值拒绝(outlier rejection)使用惯性线索。

图1显示了我们在室内数据集上运行的双目视觉惯性里程计算法的输出：双目视觉和IMU传感器在ETH主楼的几个楼层和楼梯中行走了470米。除了由姿势(pose)，速度和IMU偏差组成的状态外，我们还获得了环境的印象(impression)，表示为3D地标(landmarks)的稀疏地图。 请注意，由于紧密耦合的IMU融合，地图和路径会自动与重力对齐。

关于会议文件(Leutenegger et al., 2013)，我们做出以下主要贡献：
[1]在展示了与松散耦合方法相比的优越性能后，我们提出了关于随机克隆滑动窗口滤波器的广泛评估结果(following the MSCKF implementation of Mourikis et al. (2009), which includes first estimate Jacobians)在不同运动轮廓的准确性方面。我们的算法始终优于基于滤波的方法，但它确实会带来更高的计算成本。据我们所知，不同研究组提出的视觉 - 惯性状态估计算法的这种直接比较对于该领域是新颖的。

[2]我们的框架已经扩展到与单目相机一起使用。我们提出了有关估计和自举(bootstrapping，初始化？)部分的必要调整。需要单目版本才能与MSCKF算法的参考实现进行公平比较，MSCKF算法目前仅以单目形式发布。结果是一般的N-camera（N≥1）视觉 - 惯性里程计框架。在双目版本中，当摄像机基线与距离结构之间的比例时，性能将逐渐较单目情况变小。

[3]我们提出了在线相机外部参数估计(online camera extrinsics estimation)的公式，在校准标准化内参后应用。评估结果证明了当使用相对于IMU的不准确的相机姿态估计进行初始化时该方法的适用性。

[4]我们诚实地尝试将我们的工作呈现出一定程度的细节，使读者能够重新实现我们的框架。

[5]记录了在运动，外观和场景深度方面具有个性特征的各种新数据集
我们的新硬件迭代范围从手持室内运动到骑自行车。由于更好的校准和硬件同步，以及算法和软件级调整，综合评估与我们之前发布的结果相比表现出优越的性能。

本工作的其余部分结构如下：在第二部分中，我们提供了一个更详细的概述，说明我们的工作如何与现有文献相关并区分自己。第III节介绍了本文中使用的符号和定义。来自相机和IMU测量的非线性误差项在第IV节中进行了详细描述，然后在第V节中概述了前端处理和初始化。作为该方法的最后一个关键要素，第VI节介绍了关键帧概念通过边缘化来应用。第七节描述了实验设置，评估方案，并在不同的数据集上提供了广泛的结果。

小结

该部分突出一下几个重点：
[1]算法采用非线性优化，非线性优化方法很可能由于滤波方法
[2]经验证该算法优于MSCKF算法
[3]该算法提供了单目版本及双目版本
[4]该算法采用了关键帧这一经典视觉算法中的思路

2.相关工作

暂时未翻译

3.注释和定义

A. 注释

Notation

注释翻译

B.frame(坐标系)

使用图2中示意描绘的IMU和相机设置(setup)来评估所提出的方法的性能。它通用于单目和双目模式，我们要强调我们的方法足够通用，可以处理N-camera设置。Fw代表世界坐标系，Fc为相机坐标系，Fs为IMU坐标系。

fig. 2

C.状态

状态1

状态2

状态3

小结

该部分突出以下几个重点：
[1]论文公式中使用变量的定义
[2]论文中坐标系的定义
[3]论文需推导的变量描述，干扰模型
[4]通过算法得出的结果：路标点的位置，IMU坐标系与世界坐标系的相对方向，传感器坐标系中的世界坐标系与传感器坐标系之间相对速度，陀螺仪偏差，加速度计偏差，相机外部参数作为online校正的可选项。

4.带有惯性项的视觉SLAM

在本节中，我们介绍了将惯性测量结合到批量可视SLAM中的方法。在视觉里程计和SLAM过程中，通过最小化在相机坐标系中观察到的地标的重投影误差，进行非线性优化以找到相机位姿和地标位置。图3显示了受(Thrun and Montemerlo, 2006)启发的相应图形表示：它将测量值显示为具有方框的边缘，并将估计量显示为圆形节点。一旦引入惯性测量，它们不仅在连续位姿之间产生时间约束，而且在加速度计和陀螺仪的连续速度和IMU偏差估计之间产生机器人状态向量被增强的时间约束。

fig.3 视觉SLAM问题（左）与视觉惯性SLAM（右）中涉及的状态变量和测量的图表：结合惯性测量引入时间约束，并且需要通过机器人速度以及IMU偏差进行状态增强。

我们寻求将视觉 - 惯性定位和映射问题表达为J(x)的一个联合优化，它包含了重投影误差er与IMU的时间误差项的加权：