极大似然小结
在机器学习中,我们经常要利用极大似然法近似数据整体的分布,本篇文章通过介绍极大似然法及其一些性质,旨在深入浅出地解释清楚极大似然法。 0. 贝叶斯概率 首先看一下经典的贝叶斯公式: \[ p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)} \] 其中, \(p(Y)\) 称为先验概率( \(prior\) ),即根据先验知识得出的关于变量 \(Y\) 的分布, \(p(X|Y)\) 称为似然函数( \(likelihood\) ), \(p(X)\) 为变量 \(X\) 的概率, \(p(Y|X)\) 称之为条件概率(给定变量 \(X\) 的情况下 \(Y\) 的概率, \(posterior\) ,后验概率)。 1. 似然函数 似然,即可能性;顾名思义,则似然函数就是关于可能性的函数了。在统计学中,它表示了模型参数的似然性,即作为统计模型中参数的函数。一般形式如下: \[ L(\omega)=p(D | \omega) = p(x_1, x_2, \cdots ,x_n| \omega) \] 其中, \(D\) 表示样本集 \(\{x_1,x_2,\cdots, x_n\}\) , \(\omega\) 表示参数向量。 似然函数表示了在不同的参数向量 \(\omega\) 下,观测数据出现的可能性的大小,它是参数向量 \(\omega\) 的函数。在某种意义上