康奈尔大学计算机系
貌似这里的patches补丁就是图片的意思。
一、摘要
识别真实图像中的材料是一项具有挑战性的任务。真实世界的材料具有丰富的表面纹理,几何形状,照明条件和杂乱,这使得问题特别困难。在本文中,我们介绍了一个新的,大规模,开放的野外材料数据集,上下文材料数据库(MINC),并将该数据集与深度学习相结合,以实现野外图像的材料识别和分割。
MINC比以前的材料数据库大一个数量级,同时在23个类别中更加多样化和良好采样。使用MINC,我们训练卷积神经网络(CNN)用于两个任务:从pathes中分类材料;在完整图像中同时进行材料识别和分割。对于MINC上基于补丁的分类,我们发现性能最佳的CNN架构可以达到85.2%的平均类精度。我们将这些经过训练的CNN分类器转换为高效的全卷积框架,并结合全连接的条件随机场(CRF)来预测图像中每个像素的材料,实现73.1%的平均类精度(精度下降了?)。我们的实验表明,拥有一个大型,采样良好的数据集(如MINC)对于真实世界的材料识别和分割至关重要。
二、内容
(1)介绍
材料识别在我们理解和与世界互动中起着至关重要的作用。为了判断表面是否易于行走,或者用什么样的抓握来拾取物体,我们必须识别周围的环境中的材料。材料自动识别在各种应用中都很有用,包括机器人,产品搜索和内部设计的图像。但是在现实世界的图像中识别材料是非常具有挑战性的。许多类别的材料,例如织物或木材,在视觉上非常丰富并且具有各种各样的外观。材料可以由于照明和形状而在外观上进一步变化。一些类别,例如塑料和陶瓷,是十分光滑和无特征的,需要推理微妙的线索或背景来区分它们。
大规模数据集(例如,ImageNet [21],SUN [31,19]和Places [34])与卷积神经网络(CNN)相结合,是近期物体识别和场景分类突破的关键。材料识别同样可以通过大规模数据和学习来提升。到目前为止,Flickr材料数据库(FMD)等中等规模的数据集促进了材料识别的进展[26]。FMD包含十个材料类别,每个类别包含从Flickr照片中提取的100个样本。
仔细选择这些图像以说明这些类别的各种外观。FMD已被用于研究材料感知和识别的新特征和学习方法[17,100,20,25]。虽然FMD是实现材料识别的重要一步,但它不足以在真实世界的图像中对材料进行分类。这是因为相对较小的类别集,每个类别的图像数量相对较少,并且还因为数据集是围绕手工挑选的材料图标设计的。OpenSurfaces数据集[1]通过从真实世界的图像中引入105,000个材质分割来解决其中一些问题,并且远远大于FMD。但是,在OpenSurfaces中,许多材料类别的采样不足,只有几十个图像。
本文的一个主要贡献是一个新的,采样良好的材料数据集,称为上下文数据库材料(MINC),有300万个材料样本。 MINC更加多样化,在不太常见的类别中有更多示例,并且比现有数据集大得多。 MINC从Flickr图像中提取数据,其中包括许多“常规”场景,以及来自舞台内部专业摄影师的Houzz图像。 这些图像源各自具有不同的特征,这些特征共同增加了可识别的材料的范围。 有关数据的示例,请参见图2。 我们在http://minc.cs.cornell.edu/上在线提供完整的数据集。
我们通过在这个新数据集上训练不同的CNN架构,将这些数据用于材料识别。我们进行实验,说明网络架构,图像上下文和训练数据大小对完整场景图像的子区域(即补丁)的影响。此外,我们建立了我们的补丁分类结果,并通过使用全连接的条件随机场(CRF)模型对图像进行密集分类来演示图像的同步材料识别和分割[12]。 通过用卷积层替换CNN的全连接层[24],计算负担明显低于朴素滑动窗口方法。
总之,我们做出了两个新的贡献:
•引入了一个新的材料数据集MINC和三阶段众包管道,可以有效地收集数百万个点击标签(第3.2节)。
•新语义分割方法将全连接的CRF与基于CNN学习特征的一元预测(第4.2节)相结合,用于同时进行材料识别和分割。
(4)材料识别
我们的目标是训练一个识别图像中每个像素的材质的系统。将训练过程分为多个阶段,并分析每个阶段的网络性能。首先训练CNN,为给定的输入补丁产生单一预测。然后将CNN转换为滑动窗口,并在图像上的密集网格上预测材料。我们在多个尺度和平均值下执行此操作以获得一元术语。最后,密集的CRF [12]将一元项与全连接的成对推理相结合,以输出每像素材料预测。 整个系统如图1所示,并在下面进行描述。
4.1训练过程
MINC包含300万个补丁,我们将其拆分为训练,验证和测试集。随机拆分可能导致几乎相同的补丁(例如,来自相同的OpenSurfaces段)进行训练和测试,从而使测试分数膨胀。 为了防止相关性,我们将照片分组为近似重复的群集,然后将每个群集分配给一个列车,验证或测试。我们确保测试集中每个类别至少有75个段,以确保有足够的段来评估分段准确性。为了检测近似重复,比较从每张照片计算的AlexNet CNN特征(详见补充说明)。对于完全重复,将丢弃除一个副本之外的所有副本。
通过微调网络来训练CNN,从通过ImageNet(ILSVRC2012)的120万张图像的训练获得的权重开始。 在训练AlexNet时,我们使用随机梯度下降,批量大小为128,dropout为0.5,动量为0.9,基本学习率为10 -3,每50,000次迭代减少0.25倍。对于GoogLeNet,我们使用batchsize 69,dropout 0.4和学习率迭代次数t。
训练集每个类有不同数量的例子,所以循环遍历这些类并随机抽样每个类的一个例子。如果不能正确平衡这些例子,平均类精度会下降5.7%(在验证集上)。此外,由于已经证明可以减少过度拟合,我们通过采取作物(256×256中的227×227),水平镜面翻转,[1 /√2,√2]范围内的空间尺度,纵横比从3:4到4:3来随机增加样本,幅度在[0.95,1.05]。 由于我们正在查看局部区域,我们减去每个通道的平均值(R:124,G:117,B:104)而不是平均图像[13]。
4.2 full scene material classification
图4显示了用于同时分割和识别材料的方法的概述,4(a)将图片调整为3个尺度,使用相同的滑动窗口,4(b)为4(a)上采样和平均后的结果【没懂】,4(c)为全连接CRF预测结果。给定CNN可以对图像中的各个点进行分类,我们将其转换为滑动窗口检测器,并对图像中的网格进行密集分类。具体来说,我们用卷积层替换最后一个全连接的层,这样网络就全卷积,可以对任何形状的图像进行分类。转换后,权重是固定的,不经过微调。通过我们的转换网络,每层的步幅使网络每32像素输出一次预测。我们通过将输入图像移动半步(16像素)来获得每16个像素的预测。虽然这似乎需要4倍的计算,但Sermanet等人 [24]表明旋转可以重复使用,只需要重新计算pool5到fc8层的半步幅移位。加入半步长导致各段的平均类精度提高0.2%(应用密集后) CRF,如下所述),点击位置的平均类精度大致相同。
调整输入图像的大小,使贴片映射到256x256平方。因此,对于以贴片尺度s训练的网络,调整大小的输入具有较小的尺寸d = 256 / s。注意d与比例成反比,因此增加的上下文导致较低的空间分辨率。然后我们添加填充,以便在上采样时输出概率图与输入对齐。我们在3个不同的尺度(较小的尺寸d /√2,d,d√2)重复这个,用双线性插值对每个输出概率图进行上采样,并对预测进行平均。为了使下一步更有效,我们将输出上采样到a固定较小尺寸550。
使用下述能量函数预测每个像素的类别:
其中ψi是一元能量(聚合softmax概率的负对数),ψij是连接图像中每对像素的成对项。使用单个成对项,其中Potts标签兼容性项δ由w p和单位高斯核k加权。 对于特征f i,我们将RGB图像转换为L * a * b *并使用颜色(I Li,I ai,I b i)和位置(p x,p y)作为每个像素成对特征:,其中d是较小的图像尺寸。图4显示了一元项p i和得到的分割结果x。
来源:https://blog.csdn.net/u011582187/article/details/82079751