点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
标题:JSIS3D: Joint Semantic-Instance Segmentation of 3D Point Clouds with Multi-Task Pointwise Networks and Multi-Value Conditional Random Fields (Oral)
作者:Quang-Hieu Pham, Duc Thanh Nguyen, Binh-Son Hua, Gemma Roig, Sai-Kit Yeung
来源:CVPR2019
编译:于振洋
审核:王志勇
摘要
深度学习技术已成为2D图像上大多数与视觉相关的任务的通用模型,然而它的力量尚未在3D空间的任务中得到充分体现,例如3D场景理解。在这项工作中,作者将3D点云的语义和实例分割问题结合起来进行同时处理。
具体来说,作者开发了同时执行的多任务逐点网络两项任务:预测3D点的语义类别,以及将点嵌入到高维向量中同一对象实例的点由相似的嵌入表示。然后,作者提出一个多值条件随机字段模型,用于合并语义和实例标签,并在共同优化标签时制定语义和实例分割问题模型。对提出的方法进行了全面评估和与不同室内场景下现有方法的比较数据集,包括S3DIS和SceneNN。实验结果表明,提出的联合语义-实例分割方案在其单个组件上具有鲁棒性,还追平了语义分割性能记录。
动机
在3D场景理解中,语义分割和实例分割通常是分开处理的,但作者认为目标的语义种类及其实例是相互依赖的,比如,从实例上提取的外观和形状信息能够帮助该实例的种类预测,另外,语义分割的两个点集必然属于两个实例。基于这一认识,作者提出了同时进行3D点云语义分割和实例分割的网络——JSIS3D,并在S3DIS和SceneNN数据集上达到了点云语义分割的最好水平。
论文主要方法
整体的网络结构如下图所示:作者首先用重叠的3D windows对扫描完整场景的点云并分块输入到MT-PNet(Multi-Task Point-wise Network)子模块中,在该模块中同时进行点云的语义和实例分割并产生语义类别标签预测和实例嵌入标签预测,之后再将MT-PNet的输出融合起来馈入到MV-CRF(multi-value conditional random field)子模块中进行变分推断(对上一步的预测结果进行refine),最终输出整个点云的语义和实例分割结果。
图1 JSIS3D流程图
1 MT-PNet 多任务逐点网络
图2 MT-PNet 架构
MT-PNet是基于PointNet的改进,主要是将输出变成了两个分支:语义分割和实例嵌入,损失函数定义如下
其中第一个语义类别预测部分和PointNet一样定义为普通的交叉熵损失;第二个实例嵌入部分定义为
其中Lreg用于回归每个实例的重心点,Lpull用于聚集每个实例的嵌入点,Lpush用于排斥各个不同实例的重心点
2 MV-CRF 多值条件随机字段模型
作者将带有 实例label 和 语义label 的点云组成的概率图定义为MV-CRF,将联合语义-实例分割问题转化为求能量函数的最小值,能量函数定义如下
其中:
- 第一项表示点 j 对应的语义分割cost
- 第二项表示点 j、k 语义分割cost的相似性
- 第三项表示点 j 实例的cost
- 第四项表示点 j、k 实例 lable 的相似性
- 第五项表示语义label 和 实例 label 的相似性,也是该方法的核心所在
以上五项势能函数的定义可以查看论文的3.2节,这里就不做详细展开
3 均值场变分推断
求能量函数的最小值,等价于最大化后验条件概率p(Ls, LI | V),但该后验概率无法直接求解,因此采用概率分布Q(Ls, LI) 进行逼近,假设语义概率Q(Ls)和实例概率Q(LI)相互独立,可以得到
其中
其中:
- Zi是分区函数,将概率分布函数PDF离散化为概率质量函数PMF
- mj 是 MV-CRF 中定义的能量函数的第五项
最后,通过调整模型参数使得Q(Ls, LI) 逼近概率分布p(Ls, LI | V),比如最长用的最小化KL散度的方法,得到联合语义-实例分割模型
主要实验&结果
作者在S3DIS 和 SceneNN 数据集上进行测试,得到以下结果
图 2 S3DIS数据集上语义分割和实例分割结果
从左到右:原始点云,语义分割真值,语义分割结果,实例分割真值,实例分割结果
表1 S3DIS 数据集上语义分割与实例分割结果
图3 SceneNN数据集上语义分割和实例分割结果
从左到右:原始点云,语义分割真值,语义分割结果,实例分割真值,实例分割结果
表2 SceneNN 数据集上语义分割与实例分割结果
结论与讨论
点云的语义和实例分割是3D场景理解中的重要步骤。作者提出了一种语义-实例分割方法,该方法通过多任务点状网络和多值条件随机场模型同时执行两项任务。多任务逐点网络同时学习3D点的类标签及其嵌入式表示,这使3D点可以聚类到对象实例中;多值条件随机字段模型集成了3D和高维嵌入特征,以共同执行语义和实例分割。作者评估了提出的方法,并将其与现有方法在两个具有挑战性的室内数据集上进行了比较。实验结果很好地证明了我们的方法与最新技术相比的优势,联合语义-实例分割方法胜过了单独的语义分割或实例分割。
译者小结
这篇文章结构明了、论述清晰,使用 MT-PNet 同时生成语义label和实例label,构造统一的能量函数,然后利用概率分布的高斯特性对变分分布函数进行解耦,最后得到优化的语义-实例分割。此外,作者还对语义分割做了比较详细的综述,可以帮助同学们快速建立起对该领域的认知。
该论文自2019年发表至今,IEEE上已有12次引用,据Google Schoolar 统计引用次数更是高达50,有着很强的参考意义,做3D场景理解的同学不要错过这篇论文
Abstract
Image localization is an important supplement to GDeep learning techniques have become the to-go models for most vision-related tasks on 2D images. However,their power has not been fully realised on several tasks in3D space, e.g., 3D scene understanding. In this work, wejointly address the problems of semantic and instance segmentation of 3D point clouds. Specifically, we develop amulti-task pointwise network that simultaneously performstwo tasks: predicting the semantic classes of 3D points andembedding the points into high-dimensional vectors so thatpoints of the same object instance are represented by similar embeddings. We then propose a multi-value conditionalrandom field model to incorporate the semantic and instance labels and formulate the problem of semantic and instance segmentation as jointly optimising labels in the fieldmodel. The proposed method is thoroughly evaluated andcompared with existing methods on different indoor scenedatasets including S3DIS and SceneNN. Experimental results showed the robustness of the proposed joint semanticinstance segmentation scheme over its single components.Our method also achieved state-of-the-art performance onsemantic segmentation.
本文仅做学术分享,如有侵权,请联系删文。
下载1
在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。
下载2
在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。
下载3
在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~
来源:oschina
链接:https://my.oschina.net/u/4353161/blog/4659535