Temporal Action Detection(时序动作检测)之R-C3D论文详解
本篇文章是基于《R-C3D:Region Convolutional 3D Network for Temporal Activity Detection》的详解,欢迎批评指正。 动作检测(Action Detection)主要用于给分割好的视频片段分类,但在实际中视频多是未分割的长视频,对于长视频的分割并且分类任务叫做时序动作检测(Temporal Action Detection)。给定一段未分割的长视频,算法需要检测视频中的动作片段,包括开始时间、结束时间和动作类别。一段视频可以包含一个或多个相同或不同的动作片段。 Action Recognition和Temporal Action Detection之间的关系和Image Classification和Object Detection之间的关系很像。基于Image Classification产生了例如VGG等网络模型,这些模型在Object Detection中提取目标特征提供很大帮助。同样,Action Recognition相关的模型(例如C3D等)也被广泛用于Temporal Action Detection中提取相关动作特征。 由于Temporal Action Detection和Object Detection存在相似性,很多Temporal Action