Abstract
深度卷积神经网络在图像识别方面取得了很大的成功。然而,将最先进的图像识别网络转换成视频并非易事,因为每帧的评估速度太慢,而且负担不起。提出了一种基于深度特征流的快速、准确的视频识别框架。它只在稀疏关键帧上运行繁琐的卷积子网络,并通过流场将它们的深度特征映射传播到其他帧。由于流计算速度相对较快,因此实现了显著的加速。整个体系结构的端到端训练显著提高了识别精度。深度特征流具有灵活性和通用性。在两个视频数据集上进行了目标检测和语义分割的验证。它显著地推进了视频识别任务的实践。
Introduction
近些年来,深度卷及网络去得了巨大的成功。快速准确的视频识别对于高价值场景至关重要,例如,自动驾驶和视频监控。然而,将现有的图像识别网络应用于单个视频帧会带来难以负担的计算量大多数应用程序的成本。
我们普遍地意识到图像内容的变化缓慢,特别是高级别场景下。
这一观察结果已被用于特征学习的正则化方法,并将视频视为未使用的数据源[46,21]。然而,这样的数据冗余
并利用连续性来降低计算成本。然而,这方面很少受到注意用于文献中使用CNNs的视频识别。
现有的CNN架构有一个共同点,就是大多数层是卷基化并且占用了太多的计算量。中间卷及地形图具有与输入突袭那个相同的空间范围,通常分辨率较小,如16x16或者更小。他们之间保持了低层次的关系,层次语义概念看【48】。这就给光溜提供了机会,可能是想用光溜来替代部分的卷及
在本次工作中,我们提出了一个深度的特征光流,一个快速的视频识别图像的精确方法,它应用了一个图像
稀疏关键帧上的识别网络。它传播深度特征通过关键帧映射到其他帧流场。如图1所示,有两个中间变量地形图响应“车”和“人”的概念。它们在相邻的两帧上是相似的。传播后,传播的特征与原始特征相似。通常是流估计和特征传播比卷积特征的计算要快得多。从而避免了计算瓶颈实现了显著的加速。当流场也是通过一个网络来估计,整个架构是经过训练的端到端,具有图像识别和流网络为识别任务优化。识别精度显著提高
图1所示。提出深层特征流方法的动机。在这里,我们在ResNet-101模型的最后一个卷积层上可视化两个过滤器的特征映射(详细信息参见第4节)。卷积特征映射在两个相邻帧上是相似的。它们可以通过流场从关键帧廉价地传播到当前帧。
来源:CSDN
作者:听我的错不了
链接:https://blog.csdn.net/weixin_45032769/article/details/104768903