通知:这篇文章有10篇论文速递信息,涉及Re-ID、深度估计、超分辨率、显著性检测、GAN、VOA和卷积神经网络综述等方向
往期回顾
[计算机视觉论文速递] 2018-03-30
TensorFlow和深度学习入门教程
你现在应该阅读的7本最好的深度学习书籍
Re-ID
[1]《Pose-Driven Deep Models for Person Re-Identification》
Abstract:行人重识别(re-id)是识别和匹配不重叠视图的摄像机记录的不同位置人员的任务。re-id的主要挑战之一是人物姿态和摄像机角度的巨大差异,因为它们都不会受re-id系统的影响。在这项工作中,介绍了一种有效的方法来将粗略的相机视图信息和细粒度姿态信息整合到用于学习区分性重新嵌入的卷积神经网络(CNN)模型中。在最近的工作中,姿势信息或者在重新识别系统内被明确地建模,或者明确地用于预处理,例如通过姿势规范化人员图像。相反,所提出的方法表明,将相机视图以及检测到的身体关节位置直接用于标准CNN可以用于显著提高所学习的re-id嵌入的鲁棒性。在四个具有挑战性的监控和视频重新标识数据集上,已经实现了对当前技术水平的重大改进。此外,引入了MARS数据集的一种新的重新排序,称为X-MARS,以允许在轨迹数据上进行针对单图像重新识别训练的模型的交叉验证。
arXiv:https://arxiv.org/abs/1803.08709
[2]《Weighted Bilinear Coding over Salient Body Parts for Person Re-identification》
Abstract:深度卷积神经网络(CNN)已经证明了在行人重识别(Re-ID)方面的有很大的作用。现有的基于CNN的方法利用全局平均池(GAP)来聚合Re-ID的中间卷积特征。但是,该策略仅考虑局部特征的一阶统计量,并将同一重要位置处的局部特征视为同等重要,导致次优特征表示。为了解决这些问题,我们提出了一种新颖的用于CNN网络中局部特征聚合的加权双线性编码(WBC)模型,以追求更具代表性和区分性的特征表示。具体而言,双线性编码被用于编码信道方面的特征相关性以捕获更丰富的特征交互。同时,对双线性编码应用加权方案,根据识别的重要性自适应调整不同位置的局部特征权值,进一步提高特征聚合的可辨性。为了处理空间偏差问题,我们使用显著的部分网络来导出显著的身体部位,并将WBC模型应用于每个部分。通过连接每个部分的WBC编码特征形成的最终表示既具有区分性又能抵抗空间不对齐。包括Market-1501,DukeMMC-reID和CUHK03三个基准的实验证明了我们的方法与其他最先进的方法的良好表现。
arXiv:https://arxiv.org/abs/1803.08580
深度估计
[3]《Revisiting Single Image Depth Estimation: Toward Higher Resolution Maps with Accurate Object Boundaries》
Abstract:我们重新讨论从单个RGB图像估计场景深度的问题。 尽管近期深度学习方法取得了成功,但我们表明,通过训练由两个子网络组成的深层网络,在两个方面仍有改进的空间; 用于提供初始深度估计的基础网络,以及用于提炼它的精化网络。 首先,可以使用以顺序方式训练的子网络之间的跳跃连接来改进估计的深度图的空间分辨率。 其次,我们可以通过使用建议的使用深度梯度的损失函数来提高场景中物体边界的估计精度。 实验结果表明,所提出的网络和方法提高了基线网络的深度估计性能,特别是对于小物体的重建和边缘失真的细化,并且优于基准数据集上的最新方法。
arXiv:https://arxiv.org/abs/1803.08673
超分辨率
[4]《Fast, Accurate, and, Lightweight Super-Resolution with Cascading Residual Network》
Abstract:近年来,深度学习方法已成功应用于单幅图像超分辨率任务。 尽管它们表现出色,但由于计算量大,所以深度学习方法无法轻易应用到实际应用中。 在本文中,我们通过提出一个准确而轻量级的图像超分辨率深度学习模型来解决这个问题。 详细来说,我们设计了一个在残差网络上实现级联机制的架构。 我们还提出了提出的级联残余网络的变体模型,以进一步提高效率。 我们广泛的实验表明,即使参数和操作少得多,我们的模型也能达到与最先进方法相媲美的性能。
arXiv:https://arxiv.org/abs/1803.08664
显著性检测
[5]《PDNet: Prior-model Guided Depth-enhanced Network for Salient Object Detection》
ICME 2018
Abstract:全卷积神经网络(FCNs)在包括显著物体检测在内的许多计算机视觉任务中表现出色。然而,在基于深度学习的显著性检测中仍然需要解决两个问题。一个是缺乏大量的注释数据来训练网络。另一个是缺乏鲁棒性来提取包含复杂场景的图像中的显著物体。在本文中,我们提出了一种新的体系结构-PDNet,这是一种用于RGB-D显著物体检测的强大的先前模型引导深度增强网络。与现有的将图像像素的RGB-D值直接馈送到网络的作用相比,所提出的体系结构由用于处理RGB值的主网络和充分利用深度提示并包含深度的子网络组成基于网络的功能。为了克服用于训练的标记RGB-D数据集的有限尺寸,我们使用大的传统RGB数据集来预训练主网络,这证明对最终准确度有很大贡献。对五个基准数据集进行广泛的评估表明,我们提出的方法对于最先进的方法有良好的表现。
arXiv:https://arxiv.org/abs/1803.08636
github:https://github.com/cai199626/PDNet
GAN
[6]《Generative Adversarial Autoencoder Networks》
Abstract:我们引入一个有效的模型来克服训练生成对抗网络(GAN)时模式崩溃的问题。首先,我们提出一个新的生成器,发现它更好地处理模式崩溃。并且,我们应用独立的自动编码器(AE)来约束发生器,并将其重构样本视为“真实”样本,以减慢鉴别器的收敛,从而减少梯度消失问题并稳定模型。其次,从AE提供的潜在和数据空间之间的映射,我们进一步通过潜在和数据样本之间的相对距离来规范AE,以明确防止发生器陷入模式崩溃设置。当我们找到一种可视化MNIST数据集模式崩溃的新方法时,这个想法就来了。就我们所知,我们的方法是第一个成功提出并应用潜在和数据样本的相对距离来稳定GAN的方法。第三,我们提出的模型,即生成对抗自动编码器网络(GAAN),在合成,MNIST,MNIST-1K,CelebA和CIFAR-10数据集上经验证明,它是稳定的,既没有梯度消失也没有模式崩溃问题。实验结果表明,我们的方法可以近似良好的多模态分布,并取得比这些基准数据集上最先进的方法更好的结果。
arXiv:https://arxiv.org/abs/1803.08887
github:https://github.com/tntrung/gaan
[7]《Fictitious GAN: Training GANs with Historical Model》
Abstract:生成对抗网络(GAN)是学习生成模型的强大工具。 实际上,训练可能会因缺乏convergence而受到影响。 GAN通常被视为两个神经网络之间的two player zero-sum游戏。 在这里,我们利用这种博弈论的观点来研究训练过程的收敛行为。 受虚拟游戏学习过程的启发,引入了一种称为Fictitious GAN的新型训练方法。 Ficititous GAN使用历史模型的混合来训练深度神经网络。 具体来说,鉴别器(或生成器)根据对来自一系列先前训练的生成器(或鉴别器)的混合输出的最佳响应而被更新。 结果表明,Fictitious GAN可以有效解决标准训练方法无法解决的一些收敛问题。 证明,生成器输出的平均值与数据样本具有相同的分布。
arXiv:https://arxiv.org/abs/1803.08647
VOA
[8]《Explicit Reasoning over End-to-End Neural Architectures for Visual Question Answering》
AAAI 2018
Abstract:除了数据驱动的图像和自然语言处理外,许多视觉和语言任务都需要常识推理。在这里,我们采用视觉问答(VQA)作为示例任务,系统需要用自然语言回答关于图像的问题。当前最先进的系统尝试使用深度神经架构来解决任务,并取得了令人满意的性能。但是,由此产生的系统通常是不透明的,他们很难理解需要额外知识的问题。在本文中,我们在一组倒数第二个基于神经网络的系统之上提出了一个明确的推理层。推理层可以在需要额外知识的情况下推理和回答问题,同时为最终用户提供可解释的界面。具体而言,推理层采用基于概率软逻辑(PSL)的引擎来推理一篮子输入:视觉关系,问题的语义解析以及来自word2vec和ConceptNet的背景知识本体。在VQA数据集上生成的答案和关键证据预测的实验分析验证了我们的方法。
arXiv:https://arxiv.org/abs/1803.08896
综述
[9]《What Do We Understand About Convolutional Networks?》
Abstract:本文将回顾使用多层卷积体系结构的最重要的方法。重要的是,典型的卷积网络的各个组成部分将通过回顾不同的方法来进行讨论,这些方法的设计决策基于生物学发现和/或合理的理论基础。此外,将通过可视化和实证研究来了解ConvNets的不同尝试。 最终目标是阐明ConvNet体系结构中每一层处理的作用,提炼我们目前对ConvNets的理解,并强调关键的开放问题。
arXiv:https://arxiv.org/abs/1803.08834
其它
[10]《Geometric and Physical Constraints for Head Plane Crowd Density Estimation in Videos》
Abstract:在拥挤的场景中进行人数统计的最先进的方法依赖于深度网络来估计图像平面中的人员密度。透视失真(perspective distortion)效果可以通过学习尺度不变特征或者估计不同尺寸小片的密度来隐式处理,这两者都不能说明尺度变化必须在整个场景中保持一致的事实。在本文中,我们表明,向网络提供一个显著的尺度变化模型会显著提高性能。另外一个好处是,它可以让我们根据每平方米地面上的人数进行推理,从而使我们能够实施不需要学习的物理启发性时间一致性约束。 这产生了一种算法,在拥挤的场景中胜过最先进的方法,尤其是当透视效果很强时。
来源:oschina
链接:https://my.oschina.net/u/4298883/blog/4941772