文献 | 概述 | 研究内容 | 数据集 | 年份 |
运动物体检测内容 | ||||
Learning Motion Patterns in Videos | 学习视频中的运动模式,建立运动模式网络输入图像光流图输出视频中运动的物体,即使相机是移动的 | 运动相机检测运动物体 | DAVIS | 2017 |
Learning Features by Watching Objects Move | 我们在视频中使用无监督的基于模式的分割来获取片段,我们将其用作“伪地真相”来训练一个卷积网络从一个帧中分割对象 | 运动物体检测 | ||
Optical Flow in Mostly Rigid Scenes | 自然场景的光流是观察者运动和物体独立运动的结合,现有的算法通常侧重于在纯静态世界或一般无约束场景的光流的假设下恢复运动和结构。此文章从外观和物理约束中对移动对象进行显式的分割,在静态区域,我们利用强大的约束条件,在多个帧上联合估计摄像机的运动和场景的三维结构。https://www.youtube.com/watch?v=N7a3AZEi-c4视频 | 光流法估计运动物体 | KITTI | CVPR2017 |
MODNet: Moving Object Detection Network with Motion and Appearance for Autonomous Driving | 无人驾驶中的目标检测。提出了一种新的多任务学习系统,它结合了外观和运动提示,以更好地解释环境的语义,运动分割和车辆检测的联合训练有利于运动的分割。https://www.youtube.com/watch?v=hwP_oQeULfc视频 | 运动分割,车辆检测 | KITTI | CVPR2017 |
Unsupervised Learning of Depth and Ego-Motion From Video | 基于视频的无监督深度和自运动学习。采用了无监督的方法针对视频数据进行训练,从而对单张图片的深度以及连续帧之间的车辆运动进行估计,可以对大量已知相机内参的视频数据进行训练,为 CNN 在自动驾驶领域的应用带来的新的启发。这篇论文用视频连续帧的不同视角的几何信息作为监督信号训练了一种端到端的单目图像深度估计和车辆运动估计的 framework。https://www.youtube.com/watch?v=HWu39YkGKvI视频 | 自运动估计,无监督学习,运动车辆检测 | KITTI | CVPR2017 |
FusionSeg: Learning to Combine Motion and Appearance for Fully Automatic Segmentation of Generic Objects in Videos | 建立外观模和运动模式,并将两者相结合进行视频中运动物体检测 | 运动物体检测 | CVPR2017 | |
Fast Multi-Frame Stereo Scene Flow With Motion Segmentation | 使用运动场景流概念,本文的方法估计了来自立体对的密集视差和光流,这相当于立体的场景流估计。在摄像机运动的情况下将运动物体精确分割 | 运动物体检测 | CVPR2017 | |
Multi-View 3D Object Detection Network for Autonomous Driving | 本文针对自动驾驶场景中的高精度三维目标检测。我们提出了多视图三维网络(MV3D),这是一个传感器融合的框架,它将激光雷达点云和RGB图像作为输入,并预测面向三维的边界框。 | 3D物体检测应用于自动驾驶 | CVPR2017 | |
Deep Feature Flow for Video Recognition | 提出使用深层特征流进行视频识别 | 视频处理方案,物体识别 | CVPR2017 | |
Learning Video Object Segmentation From Static Images | 本文模型在每帧的基础上进行,在前一个帧的输出的指导下,指向下一帧的兴趣对象。文章证明,使用卷积神经网络(卷积神经网络)仅对静态图像进行训练,可以使视频中高度精确的对象分割。 | 视频物体分割,视频处理方案 | CVPR2017 | |
Learning to Segment Instances in Videos with Spatial Propagation Network | 通过空间传播网络学习视频中的片段实例。本文针对视频中多目标运动物体分割问题。主要关注视频中多实例分割的问题。具体来说,在第一帧中给定每个对象掩码,我们试图在整个视频序列中预测这个实例的片段。 | 运动物体分割 | DAVIS | CVPR2017 |
Minimum Delay Moving Object Detection | 本文提出了一种基于表观运动的视频对象检测的一般框架和方法。 | 运动物体检测 | ||
DeMoN: Depth and Motion Network for Learning Monocular Stereo | 在本文中,我们把运动的结构作为一个学习的问题。我们通过连续的、无约束的图像对来训练一个复杂的端到端的网络来计算深度和摄像机的运动,网络不仅估计了深度和运动,而且还估计了表面的法线,图像之间的光流和匹配的可信度。 | 运动物体检测 | CVPR2017 | |
Detecting Flying Objects using a Single Moving Camera | 使用单一运动相机检测飞行物体。本文要解决的问题是用一个运动的相机来检测飞行物体 | PAMI 2017 | ||
自动驾驶部分 | ||||
Efficient Deep Models for Monocular Road Segmentation | 针对路面检测和分割问题,本文结合FCN 和 U-Net 提出一个网络 Up-Convolutional Networks,在速度和精度方面得到不错的效果 | 道路分割,路面检测和分割问题 | KITTI | CVPR2017 |
Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image | 给一张灰度图像,使用 多任务CNN网络 Deep MANTA 可以给出6个信息: region proposal, detection, 2D box regression, part localization, part visibility and 3D template prediction,此外,深层的MANTA网络能够定位车辆部件,即使这些部件是不可见的 | 车辆定位 | KITTT | CVPR2017 |
End-to-end Learning of Driving Models from Large-scale Video Datasets | 基于视觉的深度学习的自动驾驶实现模型。从Vision的角度通过深度学习实现自动驾驶,在路况复杂的环境中实现车道跟随及泛化自动驾驶的场景等https://www.youtube.com/watch?v=jxlNfUzbGAY | 自动驾驶 | KITTI | CVPR2017 |
DAVE: A Unified Framework for Fast Vehicle Detection and Annotation | 本文使用深度学习进行车辆检测和属性学习 | 车辆检测 | KITTI | ECCV2016 |
光流法部分 | ||||
Optical Flow with Semantic Segmentation and Localized Layers | 使用光流进行语义分割和定位,光流的变化依赖于物体类别,根据物体的类型,我们在这些区域内定义不同的图像运动模型. 我们利用静态语义场景分割的最新进展,将图像分割为不同类型的对象。https://www.youtube.com/watch?v=QwmBSTWgr_s视频 | 光流法语义分割 | KITTI | CVPR2017 |
FlowNet: Learning Optical Flow with Convolutional Networks | CNN网络来计算光流,实现端对端训练,自己制作了个训练数据库 Flying Chairs | 光流计算 | CVPR2015 | |
FlowNet2.0升级版 | 光流计算 | CVPR2017 | ||
Robust Interpolation of Correspondences for Large Displacement Optical Flow | 对应的插值(EpicFlow)在最近的工程中被广泛应用于光流估计。它具有保护边缘和效率的优点。但在现代匹配技术中,输入匹配噪声是不可避免的。本文提出了一种鲁棒插值方法(称为RicFlow)来克服缺点。 | 光流法EpicFlow升级版 | CVPR2017 | |
Optical Flow Estimation Using a Spatial Pyramid Network | 我们通过将经典的空间金字塔式的公式与深度学习相结合来学习计算光流。 | 光流法 | CVPR2017 | |
InterpoNet, a Brain Inspired Neural Network for Optical Flow Dense Interpolation | 提出了一种基于完全卷积网络的数据驱动的基于多密度的插值算法。提出一种优于EpicFlow的光流法 | 光流法 | KITTI | |
Optical Flow Requires Multiple Strategies (but only one network) | 使用单个神经网络获得光流 | 光流法 | KITTI | |
行为监测部分 | ||||
Keep it SMPL: Automatic Estimation of 3D Human Pose and Shape from a Single Image | 从单个图像自动估计三维人体姿态和形状 | 行为识别 | ||
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition | 视频中进行行为识别。Temporal Segment Network(TSN)--一种新型的基于视频的行为识别的网络结构。它将稀疏时间采样策略和基于视频的监督相结合,使用整个视频支持有效的学习。利用TSN网络结构学习卷积神经网络在视频数据方面的处理。 | 行为识别 | CVPR2017 | |
What Will I Do Next? The Intention from Motion Experiment. | 根据视频运动预测接下来运动意图。意向预测:一种新的范例,在没有观察到的未来行动的情况下,进行未来行为预测。在同一类运动行为中,在外观上都是极其相似的,不管发生什么不同的结局。 | 运动行为预测 | CVPR2017 | |
Inferring Hidden Statuses and Actions in Video by Causal Reasoning | 通过因果推理推断视频中的隐藏状态和动作 | 运动行为预测 | CVPR2017 | |
Unsupervised Learning of Long-Term Motion Dynamics for Videos | 提出一种方法,通过预测原子三维流动的一系列基本运动来学习视频表示。然后从这个模型中提取学习的表示来识别活动。 | 运动行为识别 | CVPR2017 | |
On Human Motion Prediction Using Recurrent Neural Networks | 运动行为预测 | 运动行为预测 | CVPR2017 | |
Deep Representation Learning for Human Motion Prediction and Classification | 人类运动预测和分类的深层表征学习 | 人体运动预测 | CVPR2017 | |
Spatiotemporal Pyramid Network for Video Action Recognition | 双流卷积网络在视频动作识别任务中表现出很强的性能。关键思想是通过空间和时间上的卷积网络来学习时空特征。我们提出了一种新的时空金字塔网络,将其在金字塔结构中的空间和时间特征融合在一起,这样它们就可以互相加强 | 视频动作识别 | CVPR2017 | |
Spatiotemporal Multiplier Networks for Video Action Recognition | 本文提出了一种基于时空特征乘性交互的视频动作识别通用的卷积网络结构。我们的模型将两流建筑的外观和运动路径通过运动门结合起来,并进行了端到端的训练。 | 动作识别 | CVPR2017 | |
A Study of Vision based Human Motion Recognition and Analysis | 本文讨论了人体运动识别的应用、一般框架以及各组成部分的细节。 | 动作识别 | CVPR2017 | |
Scene Flow to Action Map: A New Representation for RGB-D Based Action Recognition With Convolutional Neural Networks | 使用场景流配合卷积神经网络进行行为识别 | 行为识别 | CVPR2017 | |
Asynchronous Temporal Fields for Action Recognition | 行为识别 | 行为识别 | CVPR2017 | |
SCC: Semantic Context Cascade for Efficient Action Detection | 在本文中,我们引入了一个语义级联上下文(SCC)模型,目的是在长视频序列中检测动作,通过接受与人类活动相关的语义优先级,SCC产生了高质量的类特定的行动建议,并以级联的方式删除了不相关的活动。 | 行为识别 | CVPR2017 | |
Surface Motion Capture Transfer With Gaussian Process Regression | 行为检测 | CVPR2017 | ||
物体检测部分 | ||||
End-to-End Instance Segmentation with Recurrent Attention | 使用端到端的递归神经网络进行实例物体分割.本文针对实例分割使用递归神经网络(RNN)架构将每个物体依次定位分割出来,使用了一个注意机制模型类似人类的计算过程 | 实例物体分割 | CVPPP, KITTI, Cityscapes | CVPR2017 |
Detect to Track and Track to Detect | 视频目标检测跟踪,本文针对视频目标检测问题提出一个统一的框架同时完成检测和跟踪 | 目标检测跟踪 | ImageNet video | CVPR2017 |
Towards End-to-End Car License Plates Detection and Recognition with Deep Neural Networks | 使用深度神经网络检测并识别车牌。本文使用CNN网络来进行车牌检测和识别,一个网络完成端对端训练,检测和识别不用分离。 | 车牌识别及检测 | CVPR2017 | |
视频物体分割。介绍了一种用于解决半监督视频对象分割问题的CNN架构,即对视频序列中所有像素的分类进行背景和前景的分类,并给出了一个(或多个)帧的人工注释。 | 卷积神经网络 | Davis | CVPR2017 | |
目标检测分割,场景理解 | 目标检测分割,场景理解 | CVPR2017 | ||
Deep Feature Flow for Video Recognition | 用来视频物体识别的深度特征流https://www.youtube.com/watch?v=J0rMHE6ehGw视频 | 视频中的物体检测 | CVPR2017 | |
Flow-Guided Feature Aggregation for Video Object Detection | 视频中的物体检测 | CVPR2017 | ||
特征点匹配 | ||||
GMS: Grid-based Motion Statistics for Fast, Ultra-robust Feature Correspondence | 一种视频的快速搜索技术,比SIFT还厉害。基于网格的运动统计,用于快速、超鲁棒的特征匹配 | 特征点匹配 | CVPR2017 | |
监控视频处理 | ||||
Surveillance Video Parsing With Single Frame Supervision | 监视视频解析,将视频帧分成多个标签,即脸,裤子,左腿,有广泛的应用。 | 监控视频 | CVPR2017 |
文章来源: CVPR2017部分论文简介