ICRA2019 | 用于移动设备的双目立体匹配

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

作者：红薯好吃

https://zhuanlan.zhihu.com/p/86481492

本文仅做学术分享，如有侵权，请联系删除。

2019机器人顶会ICRA一篇关于可以满足移动设备的双目立体模型

代码地址：

https://github.com/mileyan/AnyNet

论文题目《Anytime Stereo Image Depth Estimation on Mobile Devices》

论文摘要：许多用于机器人领域的深度估计方法都对实时性有很大的需求。目前sota模型面临在精度和实时性做出平衡的问题，加快推理速度往往会导致精度大幅度下降。针对这个问题，作者提出了一种高速推理模型。该模型能够处理1242x375分辨率的双目图片，在NVIDIA Jetson TX2上达到10-35FPS。在减少两个数量级参数情况下，仅仅比SOTA精度略微下降。

方法概述

图1

图1所示，是作者提出的AnyNet预测的时间线示意图，视差是随着时间逐步优化的。这个算法可以随时返回当前最优的视差。initial estimates即使精度不高，但是足以触发避障操作，之后的更优的深度图可以为更高级的路径规划提供线索。

AnyNet整体网络示意图如图2所示：

图2

AnyNet利用U-Net架构提取多分辨率级别下的特征，通过多阶段的视差优化获得多阶段不同级别精度的视差图满足不同任务的需求。

a)U-Net Fature Extractor：特征提取结构如图3所示，该结构提取了在1/16，1/8，1/4分辨率下的图片特征，分别被应用于1-3阶段。原始图片通过max-pooling或者卷积进行下采样操作，低分辨率的特征图可以包含全局上下文信息，高分辨率的特征图包含更多的细节信息。在1/8，1/4尺度下的final卷积层都集合了前面已经计算过的lower-scales features。

图3

b) Disparity Network：结构图如图4所示。如果feature maps 维度为HxW，那么cost volume的维度就为HxWxM，其中M表示最大候选视差。(i,j,k)表示左图(i,j)位置匹配右图的(i,j-k)位置的degree。因为存在模糊objects，遮挡或者模糊匹配都会给cost volume带来较大误差，因此第二阶段加入3D CNN进一步提升已经获得的cost volume。最后的视差采用加权方式获得，如公式(1)所示。

图4

c) Residual Prediction(划重点！！): AnyNet只在stage1计算 full disparity map，在Stages 2&3只预测residuals。在高分辨率场景下，两图之间的视差可能会非常大，比如KITTI数据集中M=192. 在2&3阶段通过限制M=5(即offsets = -2，-1，0，1，2)，这个操作带来了可观的速度提升。

为了计算stage2&3的残差，作者利用stage1的disp去warp input features at the higher scale。例如，左视差图pixel(i,j)预测值为k，则我们将左图每个像素(i, j)的值覆盖到对应的右图像素(i, j k)的值(若超出边界则使用0)。如果目前视差预测是正确的，那么更新的右图特征图会与左图匹配。作者采用多stage，逐级优化上一步的视差，stage2&3产生的残差是附加信息用作up-scaled上一个stage产生的视差图。

d)Spatial Propagation Network:为了进一步提升结果，stage4作者加入SPNet来refine stage3的视差。SPNet通过利用一个局部滤波器来锐化视差图，滤波器权重由一层CNN从左图获得。