为督促自己更好的理解论文,而不是仅看看不思考,今后【论文】系列将会至少每周总结一篇这周看过的论文,总结需分为两部分,一部分忠于原文详细总结原理方法,另一部分阐述自己的理解,以便达到整理研究思路,提高论文写作水平的目的
本周总结思考的论文为:Object-based analysis and interpretation of human motion in sports video sequences by dynamic Bayesian networks.1
前言
虽然文献的研究对象为实例级别(object-based),但由于文献发表时间早于Alexnet的出现,所以动作实例特征的提取不涉及高级语义,仅为纹理颜色形状等低级特征,故**视频物体(VOs,video objects)**的提取前置步骤不列为总结重点,重点放在如何使用数学方法建模时序上。
本文要解决的两个关键问题为:
-
1. what features we shall count on
-
2. what mapping we shall use
针对这两个关键问题,本文涉及的关键步骤有:
- video objects segmentation
目的:根据镜头检测的结果分割VOs
算法:change detection or object tracking(两种都用了) - video objects abstraction
目的:鉴别关键帧以减少数据冗余,提取VOs特征
算法:cluster analysis orsequential selection - semantic feature modeling
目的:建模语义对象的时空特性
算法:动态贝叶斯网络(DBN, Dynamic Bayesian Network)
整体架构流程图如下:
VOs提取结果
Video modeing and inter pretation
为了获取视频片段的语义,需要用DBN将低级特征映射为高级语义。
贝叶斯公式
其中:
- :为先验概率,表示每种类别分布的概率;
- :类条件概率,表示在某种类别前提下,某事发生的概率;
- 为后验概率,表示某事发生了,并且它属于某一类别的概率,有了这个后验概率,我们就可以对样本进行分类。后验概率越大,说明某事物属于这个类别的可能性越大,我们越有理由把它归到这个类别下2。
我们来看一个直观的例子:已知:在夏季,某公园男性穿凉鞋的概率为1/2,女性穿凉鞋的概率为2/3,并且该公园中男女比例通常为2:1,问题:若你在公园中随机遇到一个穿凉鞋的人,请问他的性别为男性或女性的概率分别为多少?
从问题看,就是上面讲的,某事发生了,它属于某一类别的概率是多少?即后验概率。
设:,,
由已知可得:
男性和女性穿凉鞋相互独立,故
由贝叶斯公式可得:
贝叶斯网络
概率论中有一个基本概念:一个物理域可由其中所有随机变量的联合概率密度函数(PDF)来完全表示。由于贝叶斯网络(BN, Bayesian Network)中的随机变量为因果关系,因此可将PDF简化为条件概率分布(CPD, conditional probability distribution for continuous variable)或条件概率表(CPT, conditional probablity table for discrete variable)。
一个简单的BN网络公式化例子如下:
BN的特点:
- BN为有向无环图,节点表示i.i.d.的随机变量,边表示两个节点之间相关;
- CPD/CPT定义了节点随其父节点的状态更新;
- BN的推理:利用部分已知状态节点来推理出其余部分节点的状态;
- BN的学习:已知部分或全部观察节点的状态可学习节点的CPD或CPT。
常用算法有:连接树(junction tree)3、置信传播(belief propagation)4和优化算法(如,variational and Monte Carlo sampling methods)5。
动态贝叶斯网络
DBN由具有相同结构的BN沿时间轴展开而得到,可通过隐藏节点(hidden nodes)来建模系统状态变化来表示时序关系。
- 隐马尔可夫模型(HMM, Hidden Markov Model)为离散状态节点的DBN;
- 卡尔曼滤波(Kalman filter)为连续状态节点的DBN;
本文建模动作状态变化的DBN为离散状态节点。
DBN的计算
- Problem:likelihood computation solution:inference algorithms(junction trees and variational methods)
- Problem:decoding or Most Probable Explanation(MPE) solution:inference algorithms(junction trees and variational methods) which calculate marginal distributions for the nodes
- Problem:parameter learning solution:已知隐藏节点值——Maximum Likelihood(ML) or 隐藏节点值未知或存在高斯混合PDF——Expectation-maximization algorithm(EM)
本文的DBN方法
用来进行动作分类,数据集总共包含5中动作:downhill sking, golf swing, baseball pitching, bowling, and ski jump,且每种动作分开训练了5个DBN。
- VO提取
2. 低层特征提取——提取二值化后物体的形状及骨骼
3. 定义物体重心为原点,水平方向为x轴,垂直方向为y轴,并确定其end points以将VO划分为Ⅰ·Ⅱ·Ⅲ·Ⅳ四个象限。
4. 针对人体5个部位,头,左手,右手,左脚,右脚运动建立DBN。
训练
输入:
-
隐藏节点的值,即头和四肢位于哪一象限,人工标注;
-
观察节点的值,即每一象限的VO的feature vector。
输出:
- 最大似然函数的估计量;
- CPT
推理
输入:
- feature vector
输出:
- log likelihood classification
- MPE
总结
本文最大的优点是利用数学的方法(DBN)建模了动作随时间的状态变化,并巧妙的将不同象限分类与数据集中的不同动作相结合完成了动作分类任务。但仍有以下缺点:
- 本文由于在神经网络出现之前,故没有现如今精确的目标检测方法;
- 若DBN网络中每个隐藏节点之间存在关系,即隐藏节点之间有关联的话,怎样建模(怎样将概率图模型与DBN相结合);
- 文献中每一个动作需单独训练一个DBN,若针对现有动作种类很多的数据集如UCF101来说所耗计算资源太大,如何解决模型的泛化能力;
- 不同domain的时序建模,DBN的架构可能会不同,如何实现DBN的自动架构学习;
- 本文数据集中的视频较短,如何利用DBN在不大量增加计算量的同时建模长视频。
参考文献
[1] Luo Y, Wu T D, Hwang J N. Object-based analysis and interpretation of human motion in sports video sequences by dynamic Bayesian networks[J]. Computer Vision and Image Understanding, 2003, 92(2-3): 196-216.
[2] 极大似然估计详解.https://blog.csdn.net/zengxiantao1994/article/details/72787849.
[3] Junction tree algorithm.https://ermongroup.github.io/cs228-notes/inference/jt/.
[4] Belief propagation.https://ermongroup.github.io/cs228-notes/inference/jt/.
[5] Toulouse J, Assaraf R, Umrigar C J. Introduction to the variational and diffusion Monte Carlo methods[M]//Advances in Quantum Chemistry. Academic Press, 2016, 73: 285-314.
来源:CSDN
作者:我的梦想似彩虹
链接:https://blog.csdn.net/youzhizhe2014/article/details/103761139