高斯混合模型(GMM)
据上次博客已经2周多了,一直没写,惭愧。 一、高斯模型简介 首先介绍一下单高斯模型(GSM)和高斯混合模型(GMM)的大概思想。 1.单高斯模型 如题,就是单个高斯分布模型or正态分布模型。想必大家都知道正态分布,这一分布反映了自然界普遍存在的有关变量的一种统计规律,例如身高,考试成绩等;而且有很好的数学性质,具有各阶导数,变量频数分布由 μ、σ 完全决定等等,在许多领域得到广泛应用。在这里简单介绍下高斯分布的概率密度分布函数: 其中 θ= ( μ,σ 2 ); 2.高斯混合模型 注:在介绍GMM的时候,注意跟K-means的相似点 K个GSM混合成一个GMM,每个GSM称为GMM的一个component,也就是分为K个类,与K-means一样,K的取值需要事先确定,具体的形式化定义如下: 其中, 是样本集合中k类被选中的概率: ,其中z=k指的是样本属于k类,那么 可以表示为 ,很显然 ,y是观测数据。 这里如果我们事先知道每个样本的分类情况,那么求解GMM的参数非常直观,如下表示: 假设 有K个类,样本数量分别为 N 1 ,N 2 ,…,N k 且 N 1 +N 2 +…+N k =N,即有观测数据 ,第k个分类的样本集合表示为S(k),那么公式(2)中的三个参数可以表示为: 这样是理想情况,例如给你一堆人类的身高的数据,以及对应的性别,那么这个就是估计两个分量的高斯混合模型