正态分布是一种中间高两头低的分布曲线, 其公式由高斯导出, 故又名高斯分布.
而中心极限定理让我们知道, 统计问题大多符合正态分布.
高斯混合模型正是基于这一规律.
模型认为, 一组离散数据的分布是符合高斯分布的, 但它的分布不会老老实实地由一个高斯分布决定, 肯定是多个高斯分布加权, 混合二字就是多个高斯分布混合作用的意思. 数据的生成过程如下:
- 由K个离散随机变量代表K个不同的高斯分布. 随机出一个高斯分布k.
- 根据高斯分布k, 生成一个数据.
- 重复1和2.
以上过程是已知模型, 生成数据.
我们要的是已知数据, 反推模型.
此时需要使用EM算法进行训练, 它是一种根据后验来调整先验的算法, 使用了极大似然估计, 让高斯混合模型在不断的数据训练中矫正到符合数据的分布.
关键知识点: 极大似然估计, EM算法的E过程和M过程, 正态分布(高斯分布)的公式和中心极限定理, 二阶/多阶正态分布的公式.
高斯混合模型是一种简单模型, 其概率图模型也十分简单
将它扩展到时序, 就是HMM隐马尔科夫模型.
来源:CSDN
作者:羚谷光
链接:https://blog.csdn.net/qq_39006282/article/details/104145299