【论文阅读】Material Recognition in the Wild with the Materials in Context Database

康奈尔大学计算机系

貌似这里的patches补丁就是图片的意思。

一、摘要

识别真实图像中的材料是一项具有挑战性的任务。真实世界的材料具有丰富的表面纹理，几何形状，照明条件和杂乱，这使得问题特别困难。在本文中，我们介绍了一个新的，大规模，开放的野外材料数据集，上下文材料数据库（MINC），并将该数据集与深度学习相结合，以实现野外图像的材料识别和分割。
MINC比以前的材料数据库大一个数量级，同时在23个类别中更加多样化和良好采样。使用MINC，我们训练卷积神经网络（CNN）用于两个任务：从pathes中分类材料；在完整图像中同时进行材料识别和分割。对于MINC上基于补丁的分类，我们发现性能最佳的CNN架构可以达到85.2％的平均类精度。我们将这些经过训练的CNN分类器转换为高效的全卷积框架，并结合全连接的条件随机场（CRF）来预测图像中每个像素的材料，实现73.1％的平均类精度（精度下降了？）。我们的实验表明，拥有一个大型，采样良好的数据集（如MINC）对于真实世界的材料识别和分割至关重要。

二、内容

（1）介绍

材料识别在我们理解和与世界互动中起着至关重要的作用。为了判断表面是否易于行走，或者用什么样的抓握来拾取物体，我们必须识别周围的环境中的材料。材料自动识别在各种应用中都很有用，包括机器人，产品搜索和内部设计的图像。但是在现实世界的图像中识别材料是非常具有挑战性的。许多类别的材料，例如织物或木材，在视觉上非常丰富并且具有各种各样的外观。材料可以由于照明和形状而在外观上进一步变化。一些类别，例如塑料和陶瓷，是十分光滑和无特征的，需要推理微妙的线索或背景来区分它们。

大规模数据集（例如，ImageNet [21]，SUN [31,19]和Places [34]）与卷积神经网络（CNN）相结合，是近期物体识别和场景分类突破的关键。材料识别同样可以通过大规模数据和学习来提升。到目前为止，Flickr材料数据库（FMD）等中等规模的数据集促进了材料识别的进展[26]。FMD包含十个材料类别，每个类别包含从Flickr照片中提取的100个样本。
仔细选择这些图像以说明这些类别的各种外观。FMD已被用于研究材料感知和识别的新特征和学习方法[17,100,20,25]。虽然FMD是实现材料识别的重要一步，但它不足以在真实世界的图像中对材料进行分类。这是因为相对较小的类别集，每个类别的图像数量相对较少，并且还因为数据集是围绕手工挑选的材料图标设计的。OpenSurfaces数据集[1]通过从真实世界的图像中引入105,000个材质分割来解决其中一些问题，并且远远大于FMD。但是，在OpenSurfaces中，许多材料类别的采样不足，只有几十个图像。

本文的一个主要贡献是一个新的，采样良好的材料数据集，称为上下文数据库材料（MINC），有300万个材料样本。 MINC更加多样化，在不太常见的类别中有更多示例，并且比现有数据集大得多。 MINC从Flickr图像中提取数据，其中包括许多“常规”场景，以及来自舞台内部专业摄影师的Houzz图像。这些图像源各自具有不同的特征，这些特征共同增加了可识别的材料的范围。有关数据的示例，请参见图2。我们在http://minc.cs.cornell.edu/上在线提供完整的数据集。

我们通过在这个新数据集上训练不同的CNN架构，将这些数据用于材料识别。我们进行实验，说明网络架构，图像上下文和训练数据大小对完整场景图像的子区域（即补丁）的影响。此外，我们建立了我们的补丁分类结果，并通过使用全连接的条件随机场（CRF）模型对图像进行密集分类来演示图像的同步材料识别和分割[12]。通过用卷积层替换CNN的全连接层[24]，计算负担明显低于朴素滑动窗口方法。
总之，我们做出了两个新的贡献：

•引入了一个新的材料数据集MINC和三阶段众包管道，可以有效地收集数百万个点击标签（第3.2节）。
•新语义分割方法将全连接的CRF与基于CNN学习特征的一元预测（第4.2节）相结合，用于同时进行材料识别和分割。

（4）材料识别

我们的目标是训练一个识别图像中每个像素的材质的系统。将训练过程分为多个阶段，并分析每个阶段的网络性能。首先训练CNN，为给定的输入补丁产生单一预测。然后将CNN转换为滑动窗口，并在图像上的密集网格上预测材料。我们在多个尺度和平均值下执行此操作以获得一元术语。最后，密集的CRF [12]将一元项与全连接的成对推理相结合，以输出每像素材料预测。整个系统如图1所示，并在下面进行描述。

4.1训练过程

MINC包含300万个补丁，我们将其拆分为训练，验证和测试集。随机拆分可能导致几乎相同的补丁（例如，来自相同的OpenSurfaces段）进行训练和测试，从而使测试分数膨胀。为了防止相关性，我们将照片分组为近似重复的群集，然后将每个群集分配给一个列车，验证或测试。我们确保测试集中每个类别至少有75个段，以确保有足够的段来评估分段准确性。为了检测近似重复，比较从每张照片计算的AlexNet CNN特征（详见补充说明）。对于完全重复，将丢弃除一个副本之外的所有副本。

通过微调网络来训练CNN，从通过ImageNet（ILSVRC2012）的120万张图像的训练获得的权重开始。在训练AlexNet时，我们使用随机梯度下降，批量大小为128，dropout为0.5，动量为0.9，基本学习率为10 -3，每50,000次迭代减少0.25倍。对于GoogLeNet，我们使用batchsize 69，dropout 0.4和学习率迭代次数t。

训练集每个类有不同数量的例子，所以循环遍历这些类并随机抽样每个类的一个例子。如果不能正确平衡这些例子，平均类精度会下降5.7％（在验证集上）。此外，由于已经证明可以减少过度拟合，我们通过采取作物（256×256中的227×227），水平镜面翻转，[1 /√2，√2]范围内的空间尺度，纵横比从3：4到4：3来随机增加样本，幅度在[0.95,1.05]。由于我们正在查看局部区域，我们减去每个通道的平均值（R：124，G：117，B：104）而不是平均图像[13]。

4.2 full scene material classification

图4显示了用于同时分割和识别材料的方法的概述，4(a)将图片调整为3个尺度，使用相同的滑动窗口，4(b)为4(a)上采样和平均后的结果【没懂】，4(c)为全连接CRF预测结果。给定CNN可以对图像中的各个点进行分类，我们将其转换为滑动窗口检测器，并对图像中的网格进行密集分类。具体来说，我们用卷积层替换最后一个全连接的层，这样网络就全卷积，可以对任何形状的图像进行分类。转换后，权重是固定的，不经过微调。通过我们的转换网络，每层的步幅使网络每32像素输出一次预测。我们通过将输入图像移动半步（16像素）来获得每16个像素的预测。虽然这似乎需要4倍的计算，但Sermanet等人 [24]表明旋转可以重复使用，只需要重新计算pool5到fc8层的半步幅移位。加入半步长导致各段的平均类精度提高0.2％（应用密集后） CRF，如下所述），点击位置的平均类精度大致相同。
调整输入图像的大小，使贴片映射到256x256平方。因此，对于以贴片尺度s训练的网络，调整大小的输入具有较小的尺寸d = 256 / s。注意d与比例成反比，因此增加的上下文导致较低的空间分辨率。然后我们添加填充，以便在上采样时输出概率图与输入对齐。我们在3个不同的尺度（较小的尺寸d /√2，d，d√2）重复这个，用双线性插值对每个输出概率图进行上采样，并对预测进行平均。为了使下一步更有效，我们将输出上采样到a固定较小尺寸550。

使用下述能量函数预测每个像素的类别：

其中ψi是一元能量（聚合softmax概率的负对数），ψij是连接图像中每对像素的成对项。使用单个成对项，其中Potts标签兼容性项δ由w p和单位高斯核k加权。对于特征f i，我们将RGB图像转换为L * a * b *并使用颜色（I Li，I ai，I b i）和位置（p x，p y）作为每个像素成对特征：，其中d是较小的图像尺寸。图4显示了一元项p i和得到的分割结果x。

来源：https://blog.csdn.net/u011582187/article/details/82079751

标签

cnn深度学习