通过CNN学习描述符进行3D物体识别和姿态估计(笔记)――2015
《Learning descriptors for object recognition and 3D pose estimation》
ժҪ
文章通过CNN网络学习目标描述符,获取3D目标和姿态信息。与基于流形的方法(相似)相比,文章以欧氏距离(同类目标姿态与欧氏距离直接相关)来评估描述符【通过在描述符之间强制执行简单的相似性和相异性约束(约束很好地将来自不同对象和不同视图的图像解开成簇,不仅分离良好且结构化为相应姿态集的聚类)来训练CNN来计算关键点描述符】之间的相似性,因此使用可扩展的最近邻搜索方法来有效地处理大范围姿态下的大量目标。
引言
- 最近邻Nearest Neighbor分类适用于大范围问题,因其具有平均复杂度O(1),且可添加和删除目标,这在CNN中难以直接运行。
- NN法需要一个紧凑的、有区别的描述向量,该描述可获得某一姿态下目标外表,且明显优于SIFT或SURF等手工描述方法。
- 特征点描述符仅用于寻找点信息,但我们要找到目标的身份和姿势信息。因此,学到的描述符具有2个特性:
(a)不同对象的描述符欧氏距离要大;
(b)同一对象描述符间的欧氏距离应代表它们姿态间的相似性。 - 通过描述符匹配获得目标和姿态信息。
- 文中方法是第一个学习计算对象视图描述符的方法,优势:
(1) 运用可扩展的最近邻搜索方法
(2) 同时考虑描述符的2个特性(a)和(b),其对效率至关重要 - 通过应用简单的约束条件(描述附间的相似性和非相似性约束)训练CNN,计算描述符。
相关工作
- 该方法基于心理物理实验,运用2D视图特定模板的构架。
- 与统计学习的特征相比,HOG [7] or LineMOD [14]这些手工表示法是次优的。
- 与文章依靠的严格的模板法不同,基于部分的方法,其复杂性通常随目标数量线性递增。
方法
- 描述符空间中的k-近邻搜索:文章提出,将输入图像映射到紧凑且能识别的描述符,然后根据欧氏距离应用最近邻搜索该描述符,得到其内部存储的目标和姿态信息。
- 定义损失函数
(a) 其中是CNN的所有权重,包括全连接的。
(b) triple项:先定义一个三元组(si、sj、sk)的训练样本组Т,si和sj相似性高,si和sk相似性低。fω(x)为图像x输入CNN得到的输出描述符。m是为分类引入的margin,还定义了在相似样本对和不类似样本对间的欧氏距离的最小比率,实验设为0.01。代价函数如下:
(c) (b)中以相似和不相似对形成三元组(si、sj、sk)的概念,来自度量学习的领域,特别是[37]的方法,用于学习马哈拉诺比斯距离度量。
(d) pairs项:定义一个二元组(si、sj)的样本组P,它俩来自同一物体的同一姿态。 - 计算描述符的网络结构
- 该网络的训练数据集同12年的《Model Based Training, Detection and Pose Estimation of Texture-Less 3D Objects in Heavily Cluttered Scenes 》,且其采用相同的二十面体视点采样法。
- 通过增加高斯噪声扩充训练数据集。
结论
- 文章通过训练CNN,将各种输入形态的原始图像映射到紧凑输出的描述符和模板视图,且对看不见的目标具有推广前景。
文章来源: https://blog.csdn.net/qq_40245826/article/details/97157066