EM算法----就在身边

自闭症网瘾萝莉.ら 提交于 2020-02-01 08:08:06


EM算法很常用,下面就简单总结下,使用到EM算法的一些算法。

贝叶斯分类

  现实中,会遇到“不完整”的训练样本,如某些属性变量值未知,即存在“未观测到”变量情形下,可以使用EM算法。
  基本思想是:若参数已知,则可根据训练数据推断出最优隐变量的值(E步),反之,若隐变量的值已知,则可方便的对参数做极大似然估计(M步)。
  简单来说,EM算法使用两个步骤交替计算:

  • 第一步:E步。利用当前估计的参数值(参数初始值人为设定)来计算对数似然的期望值;
  • 第二步:M步,即最大化步。寻找能使E步产生的似然期望最大化的参数值;
  • 第三步:交替。新得到的参数用于E步,…直至收敛到局部最优解。

高斯混合聚类

  假定样本由k个高斯分布混合生成,高斯混合聚类采用概率模型来表达聚类模型。高斯混合聚类采用EM算法进行迭代优化求解。
令随机变量zj∈{1, 2, 3, …, k}表示生成样本xj的高斯混合成分,其取值未知(相当于是隐变量)。
  公式推导可见周志华的《机器学习》,第208页-209页。
  高斯混合聚类的EM算法思想:

  • E步:在每步迭代中,先根据当前参数来计算每个样本属于每个高斯成分的zj的后验概率;
  • M步:再根据极大似然法估计的公式,更新模型参数。

半监督学习–生成式方法

  在半监督学习中,数据包含有标记数据和未标记数据。通俗来说,使用有标记数据+未标记数据进行训练并预测,为半监督学习。其重要方法之一是生成式方法。
  生成式方法是直接基于生成式模型的方法,它的重要假设是:所有数据(有标记+未标记)都是由同一个潜在的模型“生成”的。这个假设使得可以通过潜在模型的参数将未标记数据与学习目标联系起来,而未标记数据的标记则可看作是模型的缺失参数,可基于EM算法进行极大似然估计求解。
  公式推导见周志华的《机器学习》,第296-297页。
  假设样本有高斯混合模型生成,每个类别对应一个高斯混合成分。则高斯混合模型参数估计如下:

  • E步:根据当前模型参数计算未标记样本属于各高斯混合成分的概率;
  • M步:基于以上概率更新模型参数
  • 以上过程不断迭代直至收敛,即可获得模型参数,即可进行分类。
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!