Object as Distribution

醉酒当歌 提交于 2019-12-27 04:20:52
                                                       **Object as Distribution**

摘要:目标检测是视觉场景理解的关键部分。目标在检测任务中的表示方式对注释的效率和可行性,遮挡的鲁棒性,姿势,光照和其他语义不确定性的可视源以及现实应用中的有效性(例如,自动驾驶)都具有重要意义。比较流行的目标表示形式包括2D和3D边界框,多边形,样条线,像素和体素。每种都有自己的优点和缺点。在这项工作中,我们提出了一种新的基于二元正态分布的目标的表示形式。这种基于分布的表示形式具有以下优点:可以可靠地检测高度重叠的目标,并且由于目标边缘的统计表示形式,具有改进下游跟踪和实例分割任务的潜力。我们对该目标检测任务的表示形式进行定性评估,并对其在实例分割任务的基准算法中的使用情况进行定量评估。

1 引言:
50多年来,目标检测一直是计算机视觉领域的主要问题之一[1]。 “目标”及其与场景的关系没有普遍的形式化或定义-这是数学,计算机科学,认知科学和哲学领域广泛研究和讨论的话题。尽一切努力明确定义在视觉场景中成为独特目标意味着什么,很多有价值的语义知识被丢弃了[2]。在计算机视觉中,2D图像空间中的目标已由其2D边界框[3],3D边界框[4],多边形[5],样条线[6],像素[7]和体素[8]定义。每个表示都有基准和最新的算法。从特定应用的实用角度(例如机器视觉)考虑,每种方法都有优点和缺点,它们提供了不同级别的保真度,信息密度和注释成本。

我们提出了一种新的基于**二元正态分布(5个参数)**的表示形式,以替代2D边界框(4个参数)最常用的目标表示形式。如图1所示,这种基于分布的表示形式具有对高重叠目标进行鲁棒性检测的优势。目前尚无成熟的基准方法可用于评估此统计表示形式,因此对于检测任务,我们主要依赖于定性评估。从概念上讲,此表示法的优势在于其着重于目标的中心并不是目标边缘的距离,从而使后者周围不确定。这种强调的结果是,目标跟踪和实例分割的衍生任务可能变得对目标边缘和遮挡伪像的固有时空变化具有更高的鲁棒性。我们基于此统计表示提供了基准实例分割方法,从而激发了进一步利用此表示进行下游分割和跟踪任务的工作。最终,目标检测是感知和视觉场景理解的一般任务的简化。这项工作提出的一个基本问题是边界框是否是现实世界中检测任务中最有用的目标最小化表示形式

在这里插入图片描述图1:本工作中考虑的目标表示的说明性示例,突出显示了高度重叠的目标的情况以及每种表示对在检测步骤中成功解耦目标的任务的鲁棒性。

2 相关工作:
目标检测:

近年来,卷积神经网络(CNN)在目标检测中已经达到很好的表现[9,10,11]。这些基于CNN的方法可以分为两类:一阶段方法和两阶段方法。诸如YOLO [3]或SSD [11]之类的一阶段方法可以通过下一个工作通过用一次前馈网络直接预测出感兴趣目标的边界框。诸如Faster R-CNN [10]或R-FCN [12]之类的两阶段方法首先生成建议框,然后利用从CNN中提取的区域特征进行进一步细化。这些方法的进一步改进着重于解决各种缺点,例如缺乏对尺度变化的鲁棒性,常常在目标检测基准[13](例如,在COCO目标检测任务[14])上实现最新的性能。

无边界框实例分割:

尽管实例分割已被视为目标检测的一种更高级的形式,但是实例分割的许多最新进展仍然依赖于边界框,例如,[15、16、17、18]涉及到首先用框检测目标,然后使用框作为指导分割每个目标,[19,20]以密集的滑动窗口方式生成建议框掩码。另一方面,无边界框的方法[21、22、23]用类标签和一些辅助信息预测每个图像像素,然后使用聚类算法将像素分组为目标实例。这些方法的主要缺点是辅助信息通常是无法解释的,因此只有生成密集的目标掩码才能获得检测结果,这有时是不必要的,而且计算成本很高。

3 再考虑目标表示
目标检测的基本组成部分之一是在空间和时间上表示感兴趣目标的存在的方式。在2D图像的情况下,轴对齐的最小边界框表示法是一种广泛使用的方法,用于识别具有其近似位置以及形状和大小非常简单的框描述符的目标。尽管边界框具有参数友好和注释友好之类的优点,可以用作标记来表示目标的存在,但边界框仍具有一些缺点,例如:1)它仅关心目标在两个方向上的边界,但如果目标是旋转的或者不是方形的就不能表示。2)它对边界部分的变化很敏感,这意味着当忽略了目标的大多数像素时,框参数可能会发生巨大变化。 3)尽管它们的掩码可能有很大的不同,但它仍然无法区分非常相似的边界框中重叠的目标。

另一方面,最近使用的2D目标的另一种表示形式是目标掩码,通常由密集像素矩阵或多边形参数化。它提供了目标高度精确的形状,但通常因为参数太多,很难被用作标签。一个基于最新提出来的实例分割方法的示例,例如Mask R-CNN [17],首先使用边界框检测每个目标,然后对其进行分割,该框仍负责表示目标的存在。

考虑到以上两个范例,我们的目标是探索一种表示2D目标存在的新方法,该方法可以用最少的参数来最大的表示目标,从而使与其他目标分离开。

3.1 具有二元正态分布的2D目标表示

我们在此介绍一种表示形式,该表示形式使用二元正态分布来参数化场景中2D目标的视觉存在。具体而言,对于图像中任何密集或粗略注释的目标i,可以将其注释视为分布在2D空间中的一组像素Z(i)。我们使用二元正态分布将其表示为:
在这里插入图片描述
其中Xi 和 Yi是目标上所有像素的x轴坐标和y轴坐标。

通过使用极大似然估计,我们可以将该分布参数化为
在这里插入图片描述
其中µxi,µyi,σxi,σyi分别是Xi 和 Yi的均值和标准差。 ρ是Xi和Yi的相关系数。

与2D边界框表示相比,使用上述表示有几个优点。首先,在一般目标的形状和旋转变化方面,提出的表示形式更为精确,尤其是对于非矩形的目标。其次,它可以更可靠地表示物体在2D空间中的存在,与之不同的是,当物体的边界发生任何变化时,方框会发生很大变化。第三,它可以处理一些困难的情况,例如区分高度重叠的目标,这将在下一节中详细讨论。此外,该表示仅通过每个目标的五个参数进行参数化,比边界框多一个,但比密集像素标记少得多。

3.2 使用判别信息来区分目标

对于任何对特定类型的目标比较成功的表示方法,至关重要的是,表示应在恢复室时最大程度地减少信息丢失。对于这种情况下的2D目标,要保留的最重要信息是所有带注释的目标在空间上的存在,这也使它们彼此之间可以区分(两个不同目标不能具有相同的表示形式)。对于最近的许多目标检测方法来说,这也是一个重要的前提,即那些倾向于输出平滑响应图的方法,这些方法通过使用一些后处理技术(例如,非极大值抑制)有许多不精确的物体的假设。理想情况下可以消除误报并为每个目标获得最佳的单目标检测结果。

在使用参数化分布对目标进行编码的情况下,区分目标的自然思路是评测一个分布与另一个分布之间的差异。在这项工作中,我们使用两个参数化分布Z(i)和Z(j)之间的Kullback-Leibler(KL)散度DKL(Z(i)k Z(j))来量化两个目标之间的差异。请注意,KL散度始终是非负的,当且仅当Z(i)= Z(j)几乎到处都为DKL(Z(i)k Z(j))= 0时,在自然场景中这是不可能发生的。在实践中,为了进行模型优化和推断,我们使用对称的KL散度D为:
在这里插入图片描述
为了确保两个具有不同顺序的目标具有一致性的度量。

对于文献中的目标检测,交并比(IoU)是一种主要的评估指标,用于测量使用边界框表示的两次检测之间的差异。我们提出的具有KL散度的分布表示方法不仅有IoU具有一些良好的功能,包括图像的大小不变性以及目标的位置和大小的严格性,而且还具有一些优点。首先,KL Divergence是完全可微的,可以直接用于优化。这消除了IoU的主要缺点之一,人们必须寻找替代方法来优化边界框的大小和位置。其次,当目标重叠并且具有非常相似的边界框时,它能够处理边缘情况。这种情况很可能在某些实际情况下发生,例如行人或拥堵的车辆可能包含高度重叠的物体的驾驶场景。图2显示了从Cityscapes [24]数据集获得的一些统计信息,该数据集包含市区中的各种驾驶场景。我们的表示方法通过将故障目标对解耦的次数减少了70%以上,大大提高了对高度重叠目标的辨别力。
在这里插入图片描述
图2:在Cityscapes火车上的KL 散度和IoU之间的比较。每个点都是同一场景中的两个目标对,通过其分布表示(x轴)和边界框IoU(y轴)之间的KL散度来度量。水平线是许多检测模型和评估指标使用的0.5 IoU阈值。垂直线是我们用来区分目标的阈值。

4 具有表示建模的目标检测

为了进一步说明所提出表示的潜在用途,我们提出了一种用于目标检测的简单体系结构。与YOLO [3]类似,该方法是基于单个全卷积体系结构的统一框架。但是,与大多数其他检测工作不同,我们不使用边界框,并且输出是目标的分布表示。我们也没有使用在许多工作中被证明有用的区域建议框(RPN)或锚框(anchor),因为建议框的模型旨在处理目标检测中的各种情况,因此不对物体形状做任何假设和大小。对于需要精细物体形状的情况,我们还扩展了模型以输出密集目标掩码。

4.1 特征提取与语义预测

整个模型体系结构可以看作是任何语义分割模型的自然扩展,可以对每个像素进行密集的预测。为了便于实现,我们在本文中采用DeeplabV3 + [25]作为基准模型,该模型使用Xception [26]模型主干网络作为特征提取器。我们将Deeplab细分分支保持不变,并扩展另一个分支,以在共享特征图上进行类无关的目标表示预测。

4.2 混合密度网络的表示建模

通过使用二元正态分布N2(µi,Σi)表示目标i,我们需要对五个参数µxi,µyi,σxi,σyi,ρi建模。为了使预测位置不变,对于属于目标i的每个像素(m,n),模型预测m-µxi,n-µyi,logσxi,logσyi,tanh-1ρito形成分布。这可以解释为,模型在每个像素处估计其所属目标的相对位置,形状,大小和旋转。目标函数是使预测分布和真实分布的对称KL散度最小化,这是全微分的。

尽管可以使用单个卷积层直接为每个像素建模上述特性,但是如果图像分辨率高,则潜在的问题是计算成本。遵循用于密集像素预测的通用方法,我们考虑进行缩小预测,然后再进行放大。但是,常见的放大技术(双线性,最近邻等)无法处理目标边界处不连续的分布参数。例如,双线性放大将生成意想不到的值,可以通过对两个实际目标分布的参数求平均来将其视为另一个分布的参数,从而将边界预测为另一个目标。为了解决这个问题,我们从混合密度网络中提取思想,用n个候选分布对目标分布进行建模。对于目标i,目标分布建模为
在这里插入图片描述
其中pk是分配给每个分布候选的似然值。我们使用最后的卷积层来预测6n个参数,这是n个分布候选中的每一个的5个分布参数和1个似然性参数。最直观的想法是让模型预测多个可能的目标,并以最大可能性将像素分配给该目标。通过将值回归问题转换为分类问题,目标表示分支也适合基本语义分割体系结构的行为。

4.3 优化

在训练过程中,全局损失函数l由三部分组成:语义分割损失lseg,表示损失lrep和混合密度损失lmix。
在这里插入图片描述
其中α和β是两个权重参数,以平衡优化。这些参数与场景的复杂性有关,即当前景目标与背景的比例较低时,可以为α和β选择较高的值。

对于lseg,我们遵循语义分割的常规做法,并对所有类别使用按像素分类的交叉熵损失,并使用二值掩码忽略了无效类别和未标记区域。

lrep使用预测的分布表示和真实分布表示之间的对称的KL散度DKL2(公式6)计算。由于预测的表示是从混合密度网络中的n个候选中选择的,因此我们对每个像素使用动态掩码选择两个待选进行优化:一个似然值最高而散度最低。
在这里插入图片描述
其中Z(i)是像素i处的真实分布表示,所以j是像素i处的候选预测之一。 mrep是二进制掩码,如果j = arg minDKL2(Z(i)k Z(j))或j = arg maxpk,则mrep = 1,其中pki为像素i在候选k的似然值,否则mrep = 0。最后,关于混合候选者的可能性,lmixis也是一个分类交叉熵损失。动态地选择候选者是最佳选择的真实标签,作为具有最小散度的候选,j = arg minDKL2(Z(i)k Z(j))。一般而言,我们让混合密度网络根据其当前状态自动优化以找到最佳候选者,并共同优化最佳候选者和当前选择的候选者,使其接近真实值。 lrepand lmix将忽略不属于目标的像素。

4.4 基于散度的非极大值抑制

在对潜在目标的分布表示进行了密集的预测之后,我们修改了非极大值抑制,以使用对称的KL散度DKL2代替IoU,并使用它来消除假阳性检测并获得检测到的目标作为其分布表示。在实践中,我们发现阈值并不随目标的尺寸变化,但目标类别不同阈值不同。因此,我们使用依赖于类的散度,其中从语义预测获得类预测。

4.5 像素聚类的实例分割

由于所有像素都是通过类别标签和目标表示来预测的,因此我们根据非极大值抑制之后像素与检测到的目标之间的差异,使用最近邻将预测为前景目标类别的像素简单地聚类到不同的实例中。为了获得最佳实践,我们在缩减的预测中获得目标候选以提高速度,并在原始比例上对像素进行聚类以提高准确性。需要指出的是,该算法旨在执行检测(不需要精细的目标掩码),但可以输出目标掩码作为评估目的的替代方法。

5 实验

在本节中,我们选定Cityscapes [24]数据集进行实验结果的定量和定性描述。 Cityscapes具有5000张市区以自我为中心的驾驶场景图像,分为2975、500和1525分别用于训练,验证和测试。真实标签包含8个类别的前景目标(事物)和实例级注释,以及11个类别的背景(塞满)。我们之所以选择使用此数据集,是因为它覆盖了更多的场景复杂性,并且比其他数据集具有更高比例的高度复杂场景[27,14]。由于这项工作旨在解决目标检测中的困难情况,例如遮挡和重叠,在这个数据集上能观察到这种情况。 Cityscapes还提供了与实际应用类似的环境,例如自动驾驶,这对处理边缘情况的系统性能和可靠性提出了极高的要求。

5.1 实现细节

我们使用2975幅带有精细注释的图像进行训练。该模型是根据预先训练的DeeplabV3 + [25]语义分割权重以及随机初始化的目标表示分支进行初始化的。图像在训练过程中被随机裁剪和翻转。由于语义分割分支已经被很好的训练过了,因此我们将重点放在具有加权采样的实例标签比例较高的采样上。我们将学习速率设置为10-5,并使用具有单个Nvidia 1080Ti GPU(批量大小为1)的台式机进行120k迭代训练。评估使用测试集进行实例分割。在推理过程中,我们使用原始分辨率的单尺度图像。

5.2 定量结果

由于先前有关目标检测的大多数工作都是通过边界框IoU的平均精度(AP)进行评估的,因此,自然界中当边界框高度重叠时,这中情况自然是无法处理的。为了提供可比较的定量结果,作为替代,我们在Tab1中的Cityscapes测试中报告实例分割结果。即使并不是提出来处理密集的掩码预测任务,我们的方法也能与最新的实例分割方法取得竞争性结果。我们想强调的是,我们的方法在预测行人和汽车类别时具有更好的性能,而重叠的可能性更大。对于像火车或公共汽车这样的具有比其他目标大得多的类,我们的方法要获取目标的确切位置和大小的上下文信息,这是单尺度模型的常见问题。

表1:Cityscapes测试的实例分割结果。我们将其与不使用边界框的其他方法进行比较,因此可以潜在地处理困难的情况,例如框重叠。 (*:也使用粗糙标签进行训练)
在这里插入图片描述
5.3 定性结果

我们将定性结果可视化,以更好地说明提出的表示形式和方法的思想。图3显示了带有高度重叠的边界框的检测目标的示例,包括类内重叠和类间重叠两种情况。对于所有依赖于边界框的方法,所有这些情况很可能都是失败的情况。我们声称,这些情况中的某些情况对于实际应用可能非常重要,例如对于自动驾驶,行驶模式中的半封闭车辆对于路径规划和防撞至关重要。所提出的方法还可以帮助完成其他相关的计算机视觉任务,例如目标跟踪,运动预测等。

在这里插入图片描述
图3:带有高度重叠的边界框的检测到的目标示例。从上到下:具有通过掩码预测生成的目标边界框的图像裁剪;通过可视化预测分布来检测结果;目标掩码预测。

我们还在图4中显示了模型在不同驾驶场景下的性能的可视化。我们的模型以较低的计算成本提供了快速而精确的检测,还可以提供密集的目标掩码作为扩展。

在这里插入图片描述
图4:各种场景下的预测示例。从上至下:输入图像;语义分割;通过可视化预测分布来检测结果;目标掩码预测。

6 结论

我们基于二元正态分布提出用于目标检测任务的目标的统计表示。定性评估表明,这种表示的优点是可以可靠地检测高度重叠的目标,并且由于目标边缘的统计表示而具有改进下游跟踪和实例分割任务的潜力。

未来的工作将利用这种表示形式来改进图像中的实例分割,以及视频中的分割和跟踪的时间平滑。此外,我们希望这项工作引起一个问题,即边界框是否是现实世界中检测任务(例如自动驾驶汽车感知)中目标最有用的简约表示。对于行人,骑自行车的人和车辆的检测,重叠目标的去耦在用作意图和轨迹预测的显式建模的一部分时可能具有更高的意义。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!