- 假设每个簇的数据都符合高斯分布,当前数据呈现的分布就是各个簇的高斯分布叠加在一起的结果
- 用多个高斯分布函数的线性组合来对数据分布进行拟合
- 生成式模型
核心思想
每个单独的分模型都是标准高斯模型,其均值\(\mu_i\)和方差\(\sum_i\)是待估计的参数。此外,每个分模型还有一个权重参数\(\pi_i\)。公式为:
\[p(x) = \sum \limits_{i=1}{K} \pi_i N(x|\mu_i, \sum_i)\]
生成过程:先选择一个高斯分布,再生成一个样本点
求解方法
EM算法
与K均值比较
- 相同点
- 需要指定K值
- EM算法求解
- 局部最优
- 不同点
- 可以给出属于某类的概率
- 概率密度的估计
- 生成新的样本点