Task 9

懵懂的女人 提交于 2020-02-25 22:51:25

目标检测基础

GoogLeNet:每个Inception块里有四条并行线路

目标检测算法通常会在输入图像中采样大量的区域,然后判断这些区域中是否包含我们感兴趣的目标,并调整区域边缘从而更准确地预测目标的真实边界框(ground-truth bounding box)。
锚框(anchor box)是以每个像素为中心生成多个大小和宽高比(aspect ratio)的边界框。对于n个大小s和m个宽高比,锚框全部画上去会很多,所以我们一搬只选取含s1s_1r1r_1的,共n-+m-1个组合。整张图象,则有h×w×(n+m1)h×w×(n+m-1)个。
大小是锚框大小除以图片大小。宽高比是宽除以高,宽高比越小,图越高,越瘦。
MultiBoxPrior函数中输出的特征图张量为[N, C, H, W]。
从大小比例、宽高比到四个顶点坐标需要换算一下。

Jaccard系数为J(A,B)=ABABJ(A,B)=\frac{\left | A\cap B \right |}{\left | A\cup B \right |},此处用来衡量像素的重合。

标注训练框算法如下:
锚框为A1,...,AnaA_1,...,A_{n_a},真实边界框为B1,...,BnbB_1,...,B_{n_b},则有矩阵XRna×nbX \in \mathbb{R}^{n_a\times n_b}

  1. 先从真实边界框对应的每列中找到最符合的锚框
  2. 再从剩下的里面找nanbn_a-n_b个凑合且高于阈值的锚框
  3. 小于阈值的,被分配为背景,被称为负标注框

在输出预测边界框时,用到了非最大值抑制,来移除相似的预测边界框。
对于一个预测边界框B,模型会计算各个类别的预测概率。设其中最大的预测概率为p,该概率所对应的类别即B的预测类别。我们也将p称为预测边界框B的置信度。在同一图像上,我们将预测类别非背景的预测边界框按置信度从高到低排序,得到列表L。从L中选取置信度最高的预测边界框B1作为基准,将所有与B1的交并比大于某阈值的非基准预测边界框从L中移除。这里的阈值是预先设定的超参数。此时,L保留了置信度最高的预测边界框并移除了与其相似的其他预测边界框。 接下来,从L中选取置信度第二高的预测边界框B2作为基准,将所有与B2的交并比大于某阈值的非基准预测边界框从L中移除。重复这一过程,直到L中所有的预测边界框都曾作为基准。此时L中任意一对预测边界框的交并比都小于阈值。最终,输出列表L中的所有预测边界框。
简单地说,就是跳着选。

图像风格迁移

两张输入图像,一张内容图像,一张样式图像
在这里插入图片描述
合成图像是样式迁移(style transfer)中唯一更新的变量,即样式迁移所需迭代的模型参数。
后,我们选择一个预训练的卷积神经网络来抽取图像的特征,其中的模型参数在训练中无须更新。深度卷积神经网络凭借多个层逐级抽取图像的特征。我们可以选择其中某些层的输出作为内容特征或样式特征。

预处理函数preprocess对输入图像在RGB三个通道分别做标准化,并将结果变换成卷积神经网络接受的输入格式。后处理函数postprocess则将输出图像中的像素值还原回标准化之前的值。

我们使用基于ImageNet数据集预训练的VGG-19模型来抽取图像特征 。为了抽取图像的内容特征和样式特征,我们可以选择VGG网络中某些层的输出。一般来说,越靠近输入层的输出越容易抽取图像的细节信息,反之则越容易抽取图像的全局信息。为了避免合成图像过多保留内容图像的细节,我们选择VGG较靠近输出的层,也称内容层,来输出图像的内容特征。我们还从VGG中选择不同层的输出来匹配局部和全局的样式,这些层也叫样式层。实验中,我们选择第四卷积块的最后一个卷积层作为内容层,以及每个卷积块的第一个卷积层作为样式层。
在抽取特征时,我们只需要用到VGG从输入层到最靠近输出层的内容层或样式层之间的所有层。在构建一个我们的新的网络抽取特征时,它只保留需要用到的VGG的所有层。

样式迁移的损失函数由三部分组成:

  1. 内容损失(content loss)通过平方误差函数衡量合成图像与内容图像在内容特征上的差异,使合成图像与内容图像在内容特征上接近。
  2. 样式损失(style loss)提到了格拉姆矩阵(Gram Matrix),待补充,令合成图像与样式图像在样式特征上接近
  3. 总变差损失(total variation loss)则能够尽可能使邻近的像素值相似。有助于减少合成图像中的噪点。
    将上述三部分按权重加和。通过调节这些权值超参,我们可以权衡合成图像在保留内容、迁移样式以及降噪三方面的相对重要性。

在样式迁移中,合成图像是唯一需要更新的变量。因此,我们将合成图像视为模型参数。
样式图像在各个样式层的格拉姆矩阵styles_Y_gram将在训练前预先计算好。

图像分类基础

使用了ResNet模型。开始有152层,后来发展到1000层。
超参包括epoch,pre_epoch已经遍历数据集的次数,学习率等。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!