ICRA2019 | 用于移动设备的双目立体匹配

五迷三道 提交于 2020-10-22 08:46:24

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

作者:红薯好吃

https://zhuanlan.zhihu.com/p/86481492

本文仅做学术分享,如有侵权,请联系删除。

2019机器人顶会ICRA一篇关于可以满足移动设备的双目立体模型

代码地址:

https://github.com/mileyan/AnyNet

论文题目《Anytime Stereo Image Depth Estimation on Mobile Devices》

论文摘要:许多用于机器人领域的深度估计方法都对实时性有很大的需求。目前sota模型面临在精度和实时性做出平衡的问题,加快推理速度往往会导致精度大幅度下降。针对这个问题,作者提出了一种高速推理模型。该模型能够处理1242x375分辨率的双目图片,在NVIDIA Jetson TX2上达到10-35FPS。在减少两个数量级参数情况下,仅仅比SOTA精度略微下降。

方法概述

图1

图1所示,是作者提出的AnyNet预测的时间线示意图,视差是随着时间逐步优化的。这个算法可以随时返回当前最优的视差。initial estimates即使精度不高,但是足以触发避障操作,之后的更优的深度图可以为更高级的路径规划提供线索。

AnyNet整体网络示意图如图2所示:

图2

AnyNet利用U-Net架构提取多分辨率级别下的特征,通过多阶段的视差优化获得多阶段不同级别精度的视差图满足不同任务的需求。

a)U-Net Fature Extractor:特征提取结构如图3所示,该结构提取了在1/16,1/8,1/4分辨率下的图片特征,分别被应用于1-3阶段。原始图片通过max-pooling或者卷积进行下采样操作,低分辨率的特征图可以包含全局上下文信息,高分辨率的特征图包含更多的细节信息。在1/8,1/4尺度下的final卷积层都集合了前面已经计算过的lower-scales features。

图3

b) Disparity Network:结构图如图4所示。如果feature maps 维度为HxW,那么cost volume的维度就为HxWxM,其中M表示最大候选视差。(i,j,k)表示左图(i,j)位置匹配右图的(i,j-k)位置的degree。因为存在模糊objects,遮挡或者模糊匹配都会给cost volume带来较大误差,因此第二阶段加入3D CNN进一步提升已经获得的cost volume。最后的视差采用加权方式获得,如公式(1)所示。

图4

c) Residual Prediction(划重点!!): AnyNet只在stage1计算 full disparity map,在Stages 2&3只预测residuals。在高分辨率场景下,两图之间的视差可能会非常大,比如KITTI数据集中M=192. 在2&3阶段通过限制M=5(即offsets = -2,-1,0,1,2),这个操作带来了可观的速度提升。

为了计算stage2&3的残差,作者利用stage1的disp去warp input features at the higher scale。例如,左视差图pixel(i,j)预测值为k,则我们将左图每个像素(i, j)的值覆盖到对应的右图像素(i, j   k)的值(若超出边界则使用0)。如果目前视差预测是正确的,那么更新的右图特征图会与左图匹配。作者采用多stage,逐级优化上一步的视差,stage2&3产生的残差是附加信息用作up-scaled上一个stage产生的视差图。

d)Spatial Propagation Network:为了进一步提升结果,stage4作者加入SPNet来refine stage3的视差。SPNet通过利用一个局部滤波器来锐化视差图,滤波器权重由一层CNN从左图获得。

实验结果

图5是在KITTI2015,stage1-4 视差预测可视化图

图5

表1

表1为AnyNet在KITTI2012,KITTI2015,各个阶段的3-pixel-error。

从如下a,b两图可以看出,AnyNet在实时性和精度上做了很好的权衡。

总结

AnyNet是第一个在anytime下的立体匹配深度估计模型。随着(低功耗)gpu变得越来越便宜,并越来越多地融入到移动计算设备中,随时深度估计将为各种机器人应用场景提供准确可靠的实时深度估计。

推荐阅读

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近1000+星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!