英文原文:https://github.com/zkytony/ROSNavigationGuide/blob/master/main.pdf
背景
能否通过从诸如visual RGB之类的丰富域中借用功能来改进ethermaldomain的检测?本文提出了一种基于自然图像域数据的伪多模目标检测方法,以提高热像中目标检测的性能。我们假设访问visual RGB域中的大型数据集,而访问asiscomonday的thermaldomain中相对较小的数据集(就实例而言)。我们提出了利用已知的图像到图像转换框架来生成给定热图像的seudo-RGB等价物,然后使用多模态结构来检测热图像中的目标。我们表明,我们的框架优于现有的基准,而没有明确的需要从实例中训练。同样表明,我们的框架在使用我们的方法时,能够以较少的数据从热域学习。
介绍
根据最近的死亡事故[29],具有2级和3级自主权的自动驾驶车辆(lackingthermalimaging)中的电流传感器不足以检测车辆和行人。天黑后,行人尤其面临危险,美国5987名行人死亡事故中,75%发生在2016年[33]。在这种情况下,热传感器表现良好,自主式2级和3级传感器套件技术面临挑战。众所周知,热红外相机对光照变化的鲁棒性相对较高,因此可以在白天和夜间使用。此外,它们成本低、非侵入性强、体积小。因此,近年来红外热像仪在自动驾驶等领域的应用越来越广泛,在安全和军事监视等其他主流应用领域也越来越广泛。物体的检测和分类 如下图1.左:使用Faster-RCNN检测;中: Detection using the proposed method;右:根据FLIR数据集,中提供的注释地面真相。因此,热成像是一个需要解决和投资的重要问题,以取得可以在现实环境中转化为此类模型部署的成功。
虽然目标检测一直是计算机视觉中的一个重要问题,但是大部分的工作都集中在对标准RGB图像中的人和目标的检测上。使用先进的深卷积神经网络(CNN),RGB域中的目标检测性能已经显著提高,使用基于区域的方法,如使用选择性搜索的R-CNN[12]和快速R-CNN[11]以及使用区域提议网络识别感兴趣区域的更快的RCNN[32]。像YOLO[31]这样的目标检测方法将目标检测问题重新表述为一个回归问题,其中边界框的坐标和每个边界框的类概率是同时生成的。这使得YOLO[31]速度非常快,尽管它的性能低于R-CNN的同类产品[39]。然而,上述目标检测方法依赖于已经包含了大规模RGB数据集(如ImageNet、PASCAL-VOC和MS-COCO)的体系结构和模型。相对缺乏
热成像中可公开的大比例尺数据限制了热成像框架的等效性和成功率的实现。在这项工作中,我们提出了一个“伪多模态”的框架,用于热通道中的目标检测。其中一个分支在大规模RGB数据集(如PASCAL VOCorMS COCO)上进行预训练,并使用给定热图像(因此被称为“伪多模态”)的图像到图像(I2I)转换框架获得视觉RGB输入。第二个分支在相对较小的热量数据集上遵循标准的训练过程。我们的多模式架构有助于从RGB域获得复杂的高级特征,以改进热域中的对象检测。特别是,我们的多模态方法不需要来自两种模式的成对示例;我们的框架可以从任何可用于对象检测的大规模RGB数据集中借用,并且不需要同步多模态数据集的集合。这个设置也使这个问题具有挑战性。我们的实验结果表明,使用我们的多模框架可以显著提高全监督探测器在热区的性能。该框架还克服了热域训练样本不足的问题。此外,当热域中的数据非常有限时,我们也只能研究该方法的可靠性。我们在Centlyreleasedfliradas[13]热成像数据集上的实验结果表明,仅使用四分之一的热数据集,所提出的多模式框架就可以在整个数据集上实现高精度的单模式监督检测器。
相关工作
热成像中目标的检测和分类一直是计算机视觉领域的一个活跃研究领域[41][35][27][14],特别是在军事和监视领域[26]。在深度学习流行之前,就已经有大量的工作使用标准的计算机视觉和机器学习模型对热成像中的人和物体进行分类和检测。Bertozzi等人。[5] 提出了一种基于概率模板的远红外图像行人检测方法。他们将算法分为三个部分:候选生成、候选过滤和
候选人的确认。这种方法的一个主要缺点是,它假设人比背景更热,而在许多现实场景中可能不是这样。Davis等人。[9] 提出了一种基于两级模板的大范围热像图中人的检测方法。为了定位潜在的人的位置,使用了一个快速筛选程序,该程序使用了一个通用模板,然后使用AdaBoost集成分类器来测试假设的人的位置。Kai等人。[17] 提出了一种基于局部特征的热数据行人检测器。他们使用多个提示的组合来确定图像中的兴趣点,并使用SURF[2]作为特征来描述这些点。然后构造一个码本来定位对象中心。这种检测器的挑战在于在局部特征不明显的情况下能否获得高性能。尽管这些努力显示了图像分类和检测任务在许多对象上的性能,但近年来,通过能够学习更多描述性特征的深入学习模型,它们的性能已经超过了许多对象。随着深度神经网络的日益丰富,人们提出了几种将深度学习方法应用于热像图的方法。Peng等人。[30]提出了一种用于近红外图像人脸识别的卷积神经网络(CNN)。他们的有线电视新闻网是一个改进的,但有着不可比拟的结构。Leeet等人。[20] 设计了一个由两个卷积层和两个亚采样层组成的轻量化系统,用于利用夜间从移动车辆上采集的热图像识别行人的不安全行为。他们将他们轻量级的CNN和增强的随机森林分类相结合。Chevalier等人。[6] 提出了一种用于自动目标识别的LR-CNN算法,该算法是一种深度结构,用于对具有强语义内容的低分辨率图像进行分类。Rodger等人。[15] 开发了一个CNN,使用LWIR传感器,对包含六类目标(人、陆上车辆、直升机、飞机、无人驾驶飞行器和假警报)的中短程高分辨率红外图像进行训练。该网络成功地将其他shorttomid rangeobjectsinunsenimages分类,尽管它难以推广到远程目标。Abbott等人。[1] 使用YOLO[31]框架的转移学习方法来训练高分辨率热成像网络,以便在低分辨率热成像中对行人和车辆进行分类。Berg等人。[4] [3]提出了一种基于异常的列车热成像障碍物检测方法。Leykin等人。[22]提出了一种用于多光谱行人检测的融合跟踪器和行人分类系统。使用背景减法生成执行检测的建议,并使用周期性步态分析进行评估。
在使用多模式方法的努力中,Wagner等人。[36]应用聚合信道特征(ACF)和增强决策树(BDT)生成方案,并使用CNN对这些方案进行分类,CNN融合了视觉和红外信息。Choi等人。[8] 对视觉和红外图像使用两个独立的区域建议网络,由两个网络生成的EvaluateStroposals对融合的深层特征使用支持向量回归。工作上的努力是科尼盖特的。[19] 以及刘等人。[24]提出了一个多模型框架,将RGB和热信息结合在一个FasterRCNN架构中,提出了一个卷积网络融合问题。然而,所有这些多模态工作都假设数据集的可用性,其中包含来自视觉和热学领域的成对训练示例。另一方面,我们的工作仅假设存在热成像,并试图利用公共可用的RGB数据集(可能不与热数据集配对)来显著提高热对象检测性能。
方法论
图2总结了我们提出的用于热成像的“伪多模”目标检测方法。我们方法的关键思想是从数据丰富的领域(如visual(RGB))中汲取知识,而不需要显式地需要成对的多模态数据集。我们利用最新的图像到图像转换方法[40,25]的成功实现了这一目标,从给定的热图像自动生成伪RGB图像,然后提出了一种多模式FasterR-CNN结构来实现我们的目标。图像到图像转换模型旨在学习
源域和目标域。当源域和目标域中没有成对的图像时,学习这个映射就变得很有挑战性。最近,在利用未配对图像解决这一问题方面作出了值得注意的努力[40][38][7][25][34][28][21]。虽然在我们的整体方法论中可以使用任何无监督的图像到图像翻译框架,但我们在工作中使用CycleGAN[40]和UNIT[25]作为I2I框架,因为它们的广泛使用和普及。我们首先讨论在这项工作中使用的I2I翻译框架。
未配对图像到图像转换:CycleGAN[40]是一个流行的未配对图像到图像转换框架,旨在学习映射函数F:X→Y和G:Y→X,其中X和Y分别是源域和目标域。它将图像映射到两个独立的潜在空间,并使用两个生成器GX→Y,GY→X和两个鉴别器DX,DY。生成器GX→Y试图生成与域Y中的图像相似的图像ˆyi,而DY旨在区分翻译的样本ˆyi和真实样本yi。这一条件是用对抗性损失来执行的。为了减少可能的映射函数的空间,也实施了周期一致性约束,使得源域图像XI在变换为目标域(yi)并重新变换回到源域(Xi)时,WyEnSurin in Xi and Xi将属于该分布。更多详情请参见[40]。与CycleGAN[40]不同,UNIT[25]假设两个域之间有一个共享的延迟空间,来处理未配对的图像到图像的转换问题。它利用图像在各个区域的边缘分布来获得图像在不同区域的联合分布。该框架基于可变自编码器vae1、VAE2和生成对抗网络GAN1、GAN2,共有六个子网,包括两个图像编码器E1、E2、两个图像生成器G1、G2和两个对抗鉴别器D1、D2。由于它们假设两个域之间有一个共享的潜在空间,因此强制使用权重共享约束来关联两个vae。具体地说,在编码器E1、E2的最后几层之间进行权重共享,编码器E1、E2负责对输入图像在各个域中的更高级别表示,编码器G1、G2负责解码用于重构输入图像的高级别表示。解决了vae1、VAE2、GAN1、GAN2在图像重建、图像平移和循环重建中的学习问题。更多信息,请参见[25]。在CycleGAN和UNIT两种情况下,训练模型提供两个生成器来执行源域和目标域之间的转换。在我们的例子中,我们使用执行热到RGB转换的生成器,对于CycleGAN,由G:X→Y给出,对于UNIT,由G1给出(在训练这些模型时,我们使用热作为源域,RGB作为目标域)。在我们的方法中,我们将这些发电机的参数称为WT2R。伪多模态目标检测:如图2所示,我们的目标检测框架是由两个分支组成的多模态架构,一个用于热像输入,另一个用于RGB输入。每个分支都由一个预先在该域的图像上训练的模型初始化(具体实现细节在第4节中讨论)。为了避免两种模式的成对训练示例,但使用多模态方法,我们在框架中使用了图像动画(I2I)翻译网络。在训练过程中,对于每个热像输入,我们使用WT2R生成一个伪RGB,并将伪RGB和热像传递到输入分支(分别由WRGB和WTIR参数化)。跟踪并通过1-x1卷积(Wconv)的分支输出,以学习如何针对给定任务适当地组合这些功能。这个1x1卷积的输出直接传递到FasterRCNN网络的其余部分(用Wtop表示)。我们使用与FasterRCNN相同的区域建议网络(RPN)损耗,如下所示:
其中i是锚的索引,pi是锚i作为对象的预测概率,pi是基本真值,ti代表预测边界框的坐标,ti代表基本真值边界框坐标,L是对数损失,R是[11]中定义的稳健损失函数(平滑L1),λ是超参数。我们在网络末端使用相同的多任务分类和释放lossassusedinfastrcnn[11]。虽然现有的I2I模型的使用允许采用所提出的方法,但是从I2I框架生成的用于热到RGB翻译的图像在感知上远离自然RGB域图像(如MS-COCO〔23〕和PASCAL-Voc〔10〕),如图6所示。因此,在我们的多模态框架的训练阶段,为了学习以有助于改进检测的方式组合RGB和热特征,我们将加权软件hei2igenerator WT2R进行分组。这有助于学习伪RGB图像的更好表示,以便从RGB域借用相关特征,这将有助于提高对其他域的检测。所提出的方法提供了一个相当简单的策略来改善热域中的目标检测。我们将在下文中介绍上述方法。算法1总结了我们的训练算法。第4节提供了关于我们方法实施的更多细节。
实验
数据集:我们使用最近发布的FLIR ADAS[13]数据集和KAIST多光谱行人数据集[14]进行实验研究。FLIRADAS[13]共有9214张图像,使用BoundingBoxAnnotations,其中每个图像都有一个640×512分辨率的分辨率。60%的图像在白天采集,其余40%在夜间采集。虽然数据集同时提供了RGB和热域图像(虽然没有配对),但我们只使用数据集实验中的热图(这是我们方法所要求的)。对于所有的实验,我们使用datasetbenchmark中提供的training和testsplits,其中包含person(22372个实例)、car(41260个实例)和bicycle(3986个实例)类别。数据集中的一些示例图像如图3所示。KAIST多光谱行人基准数据集[14]包含约95000张8位日夜图像(仅包含Person类)。这些图像是使用分辨率为320×256像素的FLIR A35微测辐射热计LWIR相机采集的。然后在数据集中将图像上采样到640×512。数据集中的示例图像如图3所示。尽管KAIST数据集具有完全对齐的RGB和Thermal,但我们选择不使用RGB图像作为我们的目标,以在缺少成对训练数据的情况下提高检测效率。
图3.第1行和第2行:来自flir[13]ADAS数据集的示例图像,第3行:来自KAIST[14]数据集的示例图像我们的方法依赖于使用公共可用的大规模RGB数据集来提高热对象检测性能。为此,我们使用的RGB数据集与前面提到的热图像数据集具有相同的类。特别是,我们使用两个流行的RGB数据集进行实验,即PASCALVOC[10]和MS-COCO[23]。在实验中,我们预先训练了一个具有这些数据集的目标检测器,并使用这些参数初始化我们的多模式框架的RGB分支。我们还比较了这两个初始化的性能。在热像数据集中,首先在数据集上训练一个端到端的目标检测器,用于初始化我们框架的热分支。我们使用平均平均精度(mAP)作为性能度量,这在目标检测任务中很常见。基线:在我们的研究中,使用一个以完全监督的方式对训练集的热像进行训练的FasterRCNN作为各自实验的基线方法。除非另有说明,否则我们对所有超参数都遵循原始文件[32]。FLIR ADASdataset[13]也使用了最新的refinedestect-512[39]模型,将0.58的FLIR ADASdataset[13]设为0.58。我们通过改进的多模态FasterRCNN模型来实现这一基准。
图像到图像转换(IR到RGB):在我们的实验中,我们训练了两个CycleGAN模型:一个用于使用来自FLIR[13]的热图像和来自PASCAL VOC[10]的RGB图像的FLIR∏RGB,另一个用于使用来自KAIST[14]的热图像和来自PASCAL VOC[10]的RGB图像的KAIST∏RGB。前20个阶段的初始学习率为1e-5,后20个阶段的初始学习率为零。将标识映射设为零,即标识损失和重建损失的权重相等。训练的其他超参数如[40]所述。对于整体框架的训练,所有的超参数都是原稿所述的,没有任何改动。由于训练单位需要很长时间(在NVIDIA P-100GPU上训练7-8天),我们只为FLIR∏RGB训练,所以KAIST的实验仅使用CycleGAN进行。因此,我们的变体在本文的其余部分被称为MMTOD-CG(当I2I是CycleGAN时)和MMTOD-UNIT(当I2I是UNIT时)。我们使用CycleGAN[40]和UNIT[25]论文中提到的相同指标来评估翻译质量。为了提高CycleGAN[40]中生成图像的质量,我们尝试在循环一致性损失和对抗性损失之外添加特征损失。然而,这并没有改善热像到视觉RGB的转换性能。因此,我们最终选择使用[40]中提到的相同损失。训练我们的多模式FasterRCNN:我们的整体架构(如图2所示)是由预先训练的RGB和热探测器初始化的,如第3节所述。由于我们的目标是提高热区检测的效率,因此在热区图像上用预先训练好的权值初始化区域提议网络(RPN)。然后,在先前对热探测器进行过预训练的同一组图像上训练该模型。I2I框架生成与输入热图像对应的伪RGB图像。如图2所示,热图像和相应的伪RGB图像通过多模态框架的分支获得两个1024维的特征图。这两个特征映射被背靠背地叠加并通过1×1卷积,然后作为输入传递到区域建议网络(RPN)。RPN生成可能包含前景对象的有前途的感兴趣区域(roi)。然后,这些区域从特征地图中裁剪出来,并传递到分类层,该分类层学习对每个ROI中的对象进行分类。注意,如第3节所述,在MMTOD框架的训练期间,I2I框架的权重也被更新,这使得它能够学习更好地表示转换图像,以改进热域中的目标检测。为了达到我们的目的,我们修改了[37]中提供的FasterRCNN代码。CycleGAN和UNIT的代码取自其各自的官方代码版本[40][16][25]。我们的代码将公开,以便进一步澄清。
实验设置:为了评估所提出的多模态框架的性能,进行了以下实验:
•MMTOD-CG,RGB分支由PASCAL-VOC预训练检测器初始化,热分支由FLIR ADAS预训练检测器初始化
•MMTOD单元,RGB分支由PASCAL-VOC预训练检测器初始化,热分支由FLIR ADAS预训练检测器初始化
•MMTOD-CG,RGB分支由MSCOCO预训练探测器初始化,热分支由FLIR ADAS预训练探测器初始化
•MMTOD-UNIT,RGB分支由MSCOCO预训练探测器初始化,热分支由FLIR ADAS预训练探测器初始化
•MMTOD-CG,RGB分支由PASCAL-VOC预训练检测器初始化,热分支由KAIST预训练检测器初始化
•MMTOD-CG,RGB分支由COCO预训练探测器初始化,热分支由KAIST预训练探测器初始化
红外到RGB转换结果:图6显示了CycleGAN和UNIT的结果,它们都经过了热疗∏RGB转换训练。如第3节所述,生成的伪RGB图像在感知上远离自然域图像。这可以归因于与其他域相比,RGB域和rmal域之间的移动相对较高。此外,RGB图像同时具有色度和亮度信息,而热像只具有亮度部分,这使得对热像的估计成为可能。然而,我们表明,使用我们的方法,这些生成的图像增加了检测方法的价值。
热目标检测结果:表1和表2分别在FLIR-ADAS和KAIST数据集上训练时,我们的框架相对于基线检测器的AP和mAP的比较。(注意,KAIST数据集只有一个类Person)我们观察到,在所有的实验中,我们的框架在所有类中都优于基线网络。
在FLIR的情况下,我们观察到用MS-COCO初始化RGB分支比用PASCAL-VOC初始化得到更好的结果。这可以归因于MS-COCO与PASCAL VOC相比,拥有更多的汽车、自行车和人的实例。实验结果还表明,采用单元作为I2I框架比CycleGAN具有更好的性能。我们使用MS-COCO初始化和UNIT for I2I转换的框架使mAP至少增加了7个点。特别是,如前所述,FLIR ADAS数据集使用最新的refinedetect-512[39]模型提供了0.58的基准测试图(IoU为0.5)。尽管使用了相对较旧的对象检测模型,如FasterRCNN,我们的方法仍然优于基准。如表2所示,我们在KAIST数据集上的改进性能表明,尽管此数据集比使用的RGB数据集(如PASCAL-VOC)有更多的“Person”类别示例,但我们的框架仍然改进了基线方法的性能。这使得我们可以推断,该框架可以与任何区域的CNN-base-do目标检测方法结合使用,以提高热像中目标检测的性能。平均而言,我们的框架工作需要0.11秒才能对单个图像进行检测,而基线框架需要0.08秒。我们未来的工作方向包括提高框架的效率,同时将方法扩展到其他对象检测管道,如YOLO和SSD。
讨论和研究
有限示例学习:我们还进行了研究,以了解当热域中的样本有限时,我们的方法的能力。我们在FLIR-ADAS数据集上的实验表明,我们的框架仅使用了一半的训练示例,就比当前最先进的检测性能要好。此外,我们的实验表明,仅使用四分之一的训练实例,我们的框架在整个训练集上都优于基线。表3显示了用于实验的数据集的统计信息。注意,这些实验中使用的测试集仍然与数据集中最初提供的相同。
我们对FLIR(1/2)和FLIR(1/4)数据集进行了一组实验(如第4节所述)。表4和表5显示了结果。
表4显示了在完整的FLIR训练数据集和FLIR(1/2)上训练FasterRCNN的基线。我们观察到,在FLIR(1/2)上训练的MMTOD-UNIT和MMTOD-CG都优于这两个基线,即使FasterRCNN是在整个训练集上训练的。类似地,表5显示了在完整的FLIR训练数据集和FLIR(1/4)上训练FasterRCNN的基线。再次,我们观察到在FLIR(1/4)上训练的MMTODUNIT和MMTOD-CG都优于这两个基线,即使在整个训练集上训练更快的RCNN。换句话说,MMTOD框架只需要四分之一的热训练集就可以超过使用全训练集所获得的基线精度。因此,很早就说明了框架从较少的例子中学习的能力。这表明我们的框架有效地借鉴了RGB域的特征,有助于改进热区的检测。这在缺乏公开的大规模数据集的热和红外图像中尤其有用。图像分辨率的影响:为了了解图像分辨率对目标检测性能的影响,我们使用FLIR-ADAS数据集的下采样图像重复了上述实验。表6给出了400×400输入图像的这些结果。我们观察到,即使在这种情况下,我们的多模态框架也显著提高了目标检测性能。我们未来的工作将包括将我们的工作扩展到分辨率更低的图像。
漏检:我们试图通过研究漏检来分析预测方法的失败案例。如图7所示。我们推断,MMTOD在以下情况下提出了目标检测挑战:(i)目标的位置距离摄像机很远;(ii)两个目标相互靠近,并且被检测为单个目标;以及(iii)存在严重阻塞和拥挤。我们今后的努力将集中于应对这些挑战。
结论
我们提出了一种新的多模态框架,通过从RGB域借用特征,在热域中扩展和改进基于CNN的任意区域目标检测器,而不需要成对的训练实例。我们评估了我们的框架在各种环境下(包括FLIR ADAS和KAIST数据集)应用于FasterRCNN架构的性能。我们证明了我们的框架比基线有更好的性能,即使只训练了四分之一的热数据集。结果表明,我们的框架提供了一个简单而直接的策略来提高热图像中目标检测的性能。
来源:CSDN
作者:处女座,
链接:https://blog.csdn.net/weixin_40639095/article/details/103708892