论文阅读一(武汉加油、中国加油、不好的事必将过去)
一、MID-Fusion: Octree-based Object-Level Multi-Instance Dynamic SLAM A.系统概述 图2显示了我们提出的系统的流程。它由四个部分组成: segmentation, tracking, fusion and raycasting 。每个输入的RGB-D图像都由Mask R-CNN处理以执行实例分割,然后进行几何边缘分割和计算运动残差以优化蒙版边界(第IV-D节)。对于tracking,我们首先根据不包括人类蒙版区域的所有顶点计算相机位姿(第IV-B节),然后从该位姿进行光线投射,以找出哪些物体在当前帧中是可见的。这也可以帮助将局部对象蒙版与现有对象模型相关联。我们评估每个对象的运动残差以确定其是否处于运动状态,然后追踪运动物体(第IV-C节)并根据静态世界(包括当前的静态对象)改进相机的位姿(第IV-B节)。使用相机和物体的估计位姿,将深度和颜色信息以及预测的语义和前景概率融合到物体模型中(第IV-E节)。 IV-F节介绍了可见物体的检测以及射线投射。 B.RGB-D Camera tracking 计算相机位姿分为两步 1.根据除人类外的所有模型的顶点计算相机位姿。 2.根据静态场景计算相机位姿。 通过最小化密集的点到面的ICP残差eg和光度(RGB)残差ep来进行这两个步骤