文章目录
目标跟踪
入门基础
介绍
目标跟踪是计算机视觉领域的一个重要分支,是模式识别,图像处理,计算机视觉,机器学习等学科的交叉研究,有着广泛的应用,如视频监控,虚拟现实,人机交互,图像理解,无人驾驶等
目前的目标跟踪的通常任务是,在视频的第一帧给定一个目标的矩形框,然后后续这个矩形框紧跟着要跟踪的物体。不过,目标跟踪与计算机视觉中的图像识别,分割,检测是分不开的,通常跟踪是这些分割检测的最后一步
研究
目标跟踪方向的论文可以关注计算机视觉的三大顶会
CVPR (Computer Vision and Pattern Recognition)
ICCV (International Conference on Computer Vision)
ECCV (European Conference on Computer Vision)
另外网站 arXiv 也值得关注
VOT Challenge是目标跟踪领域的赛事,类似于图形识别领域中的ImageNet挑战赛。这些赛事通常都是标准数据集的来源,所以VOT数据集是一个常用的目标跟踪数据集。此外,还有吴毅老师的论文出现的OTB数据集,包括OTB50 (指2013年的数据集,50个视频序列)和 OTB100(指2015年的数据集,100个视频序列),也是目标跟踪重要的数据集
通常目标跟踪面临几大难点:物体变形,亮度变化,快速移动,背景干扰覆盖等,通常不规则的变化都是目标跟踪的难点,这也是在工业上未得到使用而需要解决的问题。其中最主要的三个难题分别是目标背景的变化、物体本身的变化、光照强度变化
算法
目前公认的跟踪算法按照是否需要检测过程的参与,可以将其分为两类,一类是生成式,另一类是判别式
-
生成式算法通过描述目标的表观特征,处理当前帧与下一帧的关系。主要包括稀疏编码(sparse coding)、在线密度估计(online density estimation)等。它的缺点是过于关注目标本身,忽略背景信息,容易产生漂移现象
-
判别式算法区分目标和背景,表现比生成式算法更为鲁棒,目前也是更为流行的研究方向。它包括目标的检测和跟踪,常被称为tracking by detection,目标检测指对于图像而言找出目标物体的位置,而目标跟踪对于视频而言在每时每刻都能够找出物体的位置,检测是跟踪的基础,目标检测是初始化目标,目标跟踪是连续估计目标状态。常见的算法包括多示例学习方法(multiple instance learning)、结构SVM(structured SVM)等。此外,大多数深度学习的算法也属于判别式方法
或者又可以分为两类:基于相关滤波或深度学习
现有目标跟踪方法简介
基于生成式模型的方法
生成模型提取目标特征构建表现模型,在图像中搜索与模型最匹配的区域作为跟踪结果
生成式模型不论采用全局特征还是局部特征,其本质是在目标表示的高维空间中,找到与目标模型最相邻的候选目标作为当前估计
该类方法缺陷在于只关注目标信息,而忽略了背景信息
- LK光流法(1981):假定目标灰度在短时间内保持不变,同时目标邻域内的速度向量场变化缓慢
- KLT(1994):通过匹配角点实现对目标的跟踪。随后工作则考虑采用原始的外观或者颜色作为主要特征来描述目标,或者采用更为复杂的混合方式描述目标
- L1跟踪器(2011):把跟踪看做一个稀疏近似问题,通过求解L1范数最小化问题实现对目标的跟踪
- SIFT(2012)、SURF(2008)、最大稳定极值区域(MESR)(2004)等更为鲁棒的局部特征用来描述目标,以适应目标在局部的各种尺度和旋转的变化
基于判别式模型的方法
-
判别式模型将跟踪问题看做分类或回归问题,目的是寻找一个判别函数,将目标从背景中分离出来,从而实现对目标的跟踪
-
分类判别式模型
- (2005)线性判别分析:利用线性判别分析自适应地选择对当前背景和目标最具区分力的颜色特征,分出目标,之上随后引入各类分类器
- (2007)采用支持向量机和AdaBoost等机器学习方法区分背景和目标,由于所选取的特征基于单个像素,所以容易丢失目标
- (2008)结合Haar特征和在线Boosting算法对目标进行跟踪
- (2012)TLD 利用在线Ferns检测目标,同时利用在线随机森林算法跟踪目标
- (2016)Struck算法,利用结构化的支持向量机SVM直接输出跟踪结果,避免中间分类环节
-
回归判别式模型
- 基于回归判别模型的典型方法是相关滤波。相关滤波因速度优势,逐渐成为目标跟踪领域的主流框架
- (2010)MOSSE算法;CSK算法(2012),也称为核相关滤波算法,随后工作在此之上
- 随后的工作主要从特征选择、尺度估计、正则化等方面对该算法进行改进和提高。特征选择方面,可使用方向梯度直方图、CN等特征更好地表征目标。尺度估计方面SAMF(2015)、DSST(2014)
- SRDCF(2015)、CSR-DCF(2017)、BACF(2107)、STRCF(2018)
基于深度学习的方法
-
基于预训练深度特征的跟踪模型
- (2013)利用ImageNet数据上的预训练模型提取深度特征
- (2015)利用VGG网络的深层特征与浅层特征,融入到相关滤波
- (2016)HDT利用Hedge算法将每一层特征训练出来的相关滤波器进行融合提升
- (2016)C-COT将浅层表现信息和深层语义信息结合,根据不同空间分辨率的响应,在频域进行插值得到连续空间分辨率的响应图,迭代求得最佳位置和尺度
- (2017)为解决C-COT速度慢,ECO通过卷积因式分解操作、样本分组和更新策略对其改进,不影响算法精度的同时,速度提高了一个数量级
- (2018)UPDT区别对待深度特征和浅层特征,利用数据增强和差异响应函数提高鲁棒性、准确性,提出质量评估方法自适应融合响应图,得到最优的目标跟踪结果
-
基于离线训练特征的跟踪
- (2016)MDNet跟踪算法设计一个轻量级的小型网络学习卷积特征表示目标,利用SoftMaxJ (2002)对采样样本分类,其性能表现非常优异,但速度只有1帧/s
- (2016)Siam-FC算法利用孪生网络( Siamese network ) ,在视频序列ILSVRC2015离线训练一个相似性度量函数,在跟踪过程中利用该模型,选择与模板最相似的候选作为跟踪结果
- (2016)提出SINT算法,利用孪生网络直接学习目标模板和候选目标的匹配函数,在线跟踪过程中只用初始帧的目标作:为模板来实现跟踪
- (2018)在孪生网络获得目标位置的基础上,区域提议网络被用来直接估计目标尺度,同时提高了跟踪性能和效率
-
相关滤波融入深度学习框架
- (2017)CFNet将相关滤波改写成可微分的神经网络层,和特征提取网络整合到一起以实现端到端优化,训练与相关滤波器相匹配的卷积特征
- (2018)V0T2017竞赛冠军算法CFCF则是通过精调网络模型,学习适用于相关滤波的深度特征,然后将学习到的深度特征引入C-COT的跟踪框架
- 最新的一些工作则是将深度学习最新进展,如元学习(ParkandBerg,2018)、生成式对抗网络(GAN)(Song等,2018)等,引人目标跟踪领域,以期获得更好的跟踪性能
适用于目标跟踪的深度学习模型
深度判别式模型
-
卷积神经网络(CNN)
- AlexNet(2012)
- VGGNet(2015)
- GoogLeNet(2015)
- ResNet(2016)
- DenseNet(2017)
-
循环神经网络(RNN)
- (2014)门循环单元GRU,为了解决长期记忆和反向传播中的梯度问题而提出来的
- (2015)ConvLSTM方法,其核心本质与传统LSTM相同,都是将上一层的输出作为下一层的输入。加入卷积结构使其不仅具有LSTM的时序建模能力,而且还能够像CNN一样提取空间特征,并且状态与状态之间的切换替换为卷积计算,从而使其同时具备时空特性
深度生成式模型
-
生成式对抗网络(GAN)
- DCGAN(2016)
- WGAN(2017)
- WGAN-GP(2017)
-
自动编码器(AE)(2010)
- (2013)变分自编码器(VAE)
其他深度学习模型
-
强化学习(RL)(2018)
- 主要解决问题是,对于一个可以感知环境的智能体,通过学习选出能实现目标的最优动作
-
元学习(2018)
基于深度学习的目标跟踪方法
按网络结构分类
-
基于卷积神经网络的深度目标跟踪方法
- (2017)DNT算法,利用卷积神经网络的不同层进行特征提取而实现目标跟踪的双重网络
- (2016)CNT算法,采用一个轻型的两层卷积神经网络,无需大量辅助数据离线训练就能学到较为鲁棒的特征
-
基于递归神经网络的深度目标跟踪方法
- (2017)SANet算法,引入递归神经网络来提取物体的自身结构信息,结合卷积神经网络来增强模型对相似物体的抗干扰能力
- (2018)MemTrack,引入了具有外部存储功能的动态存储网络,通过更新外部存储单元来适应目标形状的变化,不需要高代价的在线网络微调
-
基于生成式对抗网络的深度目标跟踪方法
- (2018)VITAL,通过对抗学习识别那些长期保留目标形变的掩码,为了解决各类之间的不平衡问题,引入高阶敏感损失函数降低易分负样本对分类网络的影响
- (2018)SINT++,假设所有目标样本都位于一个流行空间上,使用变分自编码器生成大量与目标样本相似的正样本,解决了正样本多样性不足的问题
- (2019)ADT,使用将二者统一的深度对抗跟踪网络架构,网络由执行回归任务的全卷积孪生神经网络和执行分类任务的分类网络组成,整个网络可以通过对抗学习端到端地进行训练和优化
-
基于自编码器的深度目标跟踪方法
- (2018)TRACA,基于上下文感知的机制选择专家自编码器对深度特征进行压缩,是一种速度快且精度高的基于相关滤波的方法
- (2018)EDCF,是一种端到端的编解码网络,采用多任务学习策略以相互增强的方式优化相关分析和图像重建,增强跟踪的鲁棒性和自适应性
按网络功能分类
-
基于相关滤波的深度目标跟踪方法
- 相关滤波通过构造一个滤波器,与视频帧进行互相关操作,得到一个响应图,其中最高的值指示了目标所在的位置。
- (2015)HCF,通过结合多层CNN特征,利用相关滤波来定位被跟踪的目标;其针对每层CNN训练一个过滤器,并且按照从深到浅的顺序使用相关滤波,利用深层得到的结果来引导浅层,从而减少搜索空间
- (2017)CFNet将相关滤波设计成一个可微分的层,采用端到端方式训练网络,提取适用于相关滤波器的特征
- 该工作基于SiamFC( 2016)实现,首先设计了两个分别代表当前帧和目标模板的分支,然后通过模板特征和当前帧特征之间的互相关确定目标位置
- (2018)FlowTrack,是一个带有可微分相关滤波层的Siamese网络,使用多个之前的视频帧作为模板,结合时空注意力模块计算不同位置不同模板特征的权重,最终确定目标位置
- 与上述采用离散滤波器的方法不同,(2016)C-COT使用连续卷积滤波器进行目标跟踪,(2017)ECO针对C-COT的过拟合和采样存储问题,使用少量的滤波器参数替代原来大量的过滤器参数,并结合高斯混合模型减少存储的样本数量以及保持样本的差异性
- (2018)DRT,在ECO的基础上引人了稳定性概念,对滤波器的每一部分引人一个权值,由此决定是否用它进行跟踪
-
基于分类网络的深度目标跟踪方法
- 基于分类网络的深度目标跟踪方法通常需要多步完成,首先在目标可能存在的位置产生大量候选框,接着通过分类网络对所有的候选框评估,给出相应的分值,最后所有的候选框都根据得到的分值进行排序,分数最高的候选框就作为目标所在的位置
- (2016)MDNet提出了一个多域的网络框架,将一个视频序列视为一个域,其中共享的部分用来学习目标的特征表达,独立的全连接层则用于学习针对特定视频序列的二元分类器
- (2017)ADNet是一个与增强学习相结合的目标跟踪算法,增强学习策略网络是通过CNN构建的
- (2018)VITAL介绍了-一个基于生成对抗网络的目标跟踪方法,核心思想是采用GAN产生一个权重掩码以选择有判别力的特征,通过掩码与特征图的乘积实现分类
-
基于回归网络的深度目标跟踪方法
- 基于回归网络的方法通常在之前目标所在的位置基础上,使用一个前向网络,直接回归目标所在的位置。和其他方法相比,基于回归网络的深度目标跟踪方法易于实现,速度较快,且可利用线下和线上的训练
- (2016)GOTURN假定在连续视频帧间目标移动较为缓慢,使用带有两个卷积层分支的神经网络,一个是之前视频帧包含的目标区域,另一个是在当前视频帧中包含的以上一帧目标所在位置为中心一定范围内的区域,者在全连接层进行融合,回归出目标所在的位置
- (2018)DSLT, 使用回归网络将样本映射为一个软标签图,即响应图。然而,前景和背景目标数量上的不平衡会影响回归学习的质量。因此,作者提出了结合收缩损失的回归方法
按照网络训练分类
-
基于预训练网络的深度目标跟踪方法
- 基于深度学习的跟踪器不仅要准确地预测出目标位置,而且跟踪速度至少要达到与视频同样的帧率,这样才具有较高的实用性。因此,基于深度学习的跟踪器在网络设计和训练上需要平衡预测精度和速度
- 在HDT(2016)中,使用预训练的VGGNet的不同卷积层特征来表征目标,针对每一个卷积层的特征,构建一个基于鉴别相关滤波器(DCF)的弱跟踪器,然后使用集成方法将多个弱跟踪器关联成强跟踪器,从而提高跟踪性能
- (2015)DeepSRDCF,将深度卷积特征应用到DCF跟踪框架中。与HDT构建多个跟踪器不同,Deep-SRDCF将预训练VGGNet的不同卷积层特征进行线性融合来表征目标。实验表明该方法可以在多个跟踪数据集上取得较好的结果
-
基于在线微调网络的深度目标跟踪方法
- 特征提取部分采用预训练的网络进行初始化。在跟踪开始时,首先用第1帧的标注样本训练目标检测部分和微调特征提取部分。跟踪过程中,根据预测结果生成一定的正、负样本,然后微调整个网络,进一步提高网络的判别能力,较好地适应目标的变化,显著提高跟踪性能
- (2016)在MDNet,采用了特征提取和多分支检测结合的网络结构
- (2017)CREST ,是一个端到端的在线学习跟踪网络,其使用VGG-16作为目标特征提取网络,然后使用DCF来检测目标,其中DCF通过一个网络卷积层来实现
-
基于离线训练网络的深度目标跟踪方法
- 基于在线微调网络的深度目标跟踪方法会使跟踪器的效率大大降低,深度特征的提取和更新很难做到实时。为解决这一问题,提出基于离线端到端训练的全卷积李生网络的跟踪方法SiamFC(2016);SiamFC提出后受到了很多关注,很多跟踪方法都在其基础上进行改进
- 由于SiamFC网络主要关注外观特征而忽略了高层语义信息,SA-Siam(2018)采用融合表观特征和语义信息的双重李生网络跟踪方案,其中一个孪生分支负责表观特征匹配,另一个负责语义信息的匹配。SA-Siam 引人语义信息使得跟踪器更加稳定,不易受目标表观变化的影响
- 与SiamFC和SA-Siam检测网络的方法不同,COTURN(2016)采用基于孪生网络的回归方法,学习目标表观和运动的变化关系。输入两幅包含目标的图像,GOTURN首先经过共享参数的孪生网络提取特征,回归网络能够比较两幅图像回归出目标的位置,跟踪速度可以达到100帧/s
其他深度目标跟踪算法
基于分类与回归相融合的深度目标跟踪方法
- (2018)Siamse-RPN网络,其网络结构包括特征提取的Siumese子网络和产生候选目标区城的RPN子网络。Siamese 子网络的输人包括模板帧和检测帧。RPN子网络则分为分类和回归两个子模块
- (2018)DaSiamRPN方法,对Siamese-RPN进行进一步优化和改进,以着重处理训练数据不平衡、自适应的模型增量学习及长程跟踪等问题。尽管该类方法在公开数据库上取得了很好的性能,但需依赖于额外的大规模调练数据来保证所训练跟踪模型的鲁棒性
基于强化学习的深度目标跟踪方法
- 该类方法将强化学习的决策策略引人到目标跟踪任务中。以优化深度网络的参数网络深度。或预测目标移动状态等信息
- (2017)ADNet,采取马尔可夫决策过程(MDP)的基本策略,将目标移动定义为离散化的动作,特征以及观察的历史状态形成当前状态,认为目标跟踪是一系列动作预测和状态变化的过程
- (2017)认为跟踪目标的困难程度所依赖的特征复杂度不同,提出了一种自适应的决策过程以学习一个agent来决定采取浅层或更深层的特征,有效地提升了目标跟踪的速度
- (2017)针对目前目标跟踪数据的标注困难问题提出了一种弱监督的深度强化学习算法,仅需要在训练过程中标定是否奖励或惩罚而不需要详细的目标框标注,也可以处理部分标注的情况(即形成部分可观察的马尔可夫决策过程)
- (2018)基于超参数优化的深度连续Q-learning方法,以解决在线目标跟踪中不同视频的模型超参数适应问题
- (2018)基于强化学习中的Actor-Critic 框架提出了相应的目标跟踪算法。Actor 网络利用深度网络优化目标位置, Critic网络计算预测框的得分并反馈至Actor网络,从而根据反馈信息更新模型。相比于传统的深度跟踪算法,该类方法不仅可以较好地自适应于新的环境,而且由于模型推理的候选目标框数量少能够提升目标跟踪的速度
基于集成学习的深度目标跟踪方法
- 该类方法的主要策略是先通过一定的规则生成多个分类器,然后采用某种集成策略优化组合,最后綜合判断输出最终的目标跟踪结果
- (2016)提出了种基于多个卷积神经网络树形结构化的目标表观模型方法。多个卷积网络协同估计目标状态,并通过优化基于树形结构的子模型实现路径的更新。为了节省存储空间和避免冗余的计算,多个卷积网络采取共字底层卷积参数的策略
- (2016),对共享的卷积网络特征谱的每个通道训练一一个基学习器。为了降低学习器的相关性以及避免过训练问题,每个基学习器采用不同的损失函数。尽管这些方法尝试利用特征或损失函数增大各子模型的差异性,但每个子模型之间仍然存在过多的冗余信息
- (2017)采用卷积层共享而全连接层多分枝的集成方法,基于经典的drop-out方法,在跟踪过程中选取各个分枝模型时采用随机策略,以便增加子跟踪模型的差异性同时避免过报合问题
- (2017),部分学者从数据采样的角度缓解冗余问题, 提出了一种基于委员会学习的跟踪方法,每个跟踪器根据训练数据的分布进行采样以使得不同跟踪器之间采用的样本具有差异性
- (2018)从特征表示的角度, 利用跟踪目标的不同特征来学习相应的判别式相关滤波跟踪专家,然后对专家之间以及专家自身进行评价选择合适的专家进行目标跟踪以及模型更新
基于元学习的深度目标跟踪方法
- 该类方法利用元学习对目标跟踪模型自适应地优化,使得模型快速地适应于不同视频序列或场景
- (2016)Leamet方法,将目标跟踪模型定义为模板上的动态参数化函数,以便处理在线跟踪时单样本学习的情况。
- (2017)MLT,采用梯度预测的策略自适应更新网络参数,采用参数化网络梯度的方法学习网络模型,从面构建了一个元学习网络。此外,也借鉴了经典的Siamese匹配网络估计跟踪目标的位置
- (2018)Meta-ltacker方法,也采用基于预测梯度的策路学习方法获得普适性的初始化模型,可以使得跟踪模型自适应于后续帧特征的最佳梯度方向
数据库与评价标准
适用于深度学习目标跟踪的视频数据库
适用于深度学习目标跟踪的评价标准
应用实例介绍
来源:CSDN
作者:小蔷妹iye
链接:https://blog.csdn.net/qq_36800944/article/details/104238631