2-2.5-3D的室内场景理解
2-2.5-3D的室内场景理解 主要内容 摘要随着低成本、紧凑型 2-2.5-3D视觉传感设备的出现,计算机视觉界对室内环境的视景理解越来越感兴趣。本文为本课题的研究提供了一个全面的背景,从历史的角度开始,接着是流行的三维数据表示和对可用数据集的比较分析。在深入研究特定于应用程序的细节之前,简要介绍了在文献中广泛使用的底层方法的核心技术。之后根据基于场景理解任务的分类,回顾了所开发的技术:包括全局室内场景理解以及子任务,例如场景分类、对象检测、姿势估计、语义分割、三维重建、显著性检测、基于物理的推理和提供性预测。随后,总结了用于评估不同任务的性能指标,并对最新技术进行了定量比较。最后对当前面临的挑战进行了总结,并对需要进一步研究的开放性研究问题进行了展望。 介绍 根据输入媒体的不同,视觉场景理解大致可以分为两类:静态理解(对于图像)和动态理解(对于视频)。本文特别关注室内场景 2-2.5-3D视觉数据的静态场景理解。我们专注于 3D媒体,因为 3D场景理解能力是通用人工智能 agent开发的核心,这些智能 agent可以部署到各种新兴应用领域,如自主车辆、家用机器人、医疗保健系统、教育、环境保护和信息娱乐。 数据表示 下面将会重点介绍用于表示和分析场景的流行的 2.5D和 3D数据表示,现有常用的 data representation主要有: 1. 点云2. Voxel