原文链接:极大似然估计(MLE)学习总结
《每天解决一个知识点系列》
估计能翻到这一页博文的盆友都是行走在机器学习/数据挖掘的路上吧,自学之路真的苦不堪言,于是下定决心把自己学到的知识点记下来,和初入机器学习之坑的基友们一起显摆显摆。话不多说,我将从一个小白的角度解读一下我对极大似然估计的理解(我比较喜欢这样叫,但为了学习方便,我采取官方说法),各位看官请往下看。
-------------------------------我是羞羞的分割线-------------------------------------
我是比较喜欢概率论的东西,对于最大似然估计的概念大家可以通俗理解为用观察去猜测真实概率。比如给定一组观察得到的样本数据X,我们无法知晓这个随机变量(其实是某个事件发生的属性值,它有多重取值可能)真实的概率分布函数是怎样的。这时候我们希望通过收集到的样本数据去猜哪个参数会影响分布函数使得最终呈现出我们观察到的这些样本。
不过,我们聪明的统计学家已经为我们观察到了复杂世界存在的各种概率分布情况及其对应的计算公式,如“正态分布”、“二项分布”、“泊松分布”等。但细心的同学们一定会发现这些所谓的分布发生的概率是有规律的,有各自的计算公式,如假设随机事件X服从均值为µ,方差为σ2 的正态分布函数,那么事件X发生的概率如下:
但我们是不知道如何参数µ和σ是多少的,这时候就需要从样本中去估计了。于是可以下一个结论,最大似然估计的意思就是在已知观测数据X,参数θ未知的情况下求使出现该观测样本的概率值最大化,再反过来求解对应的参数值θ。说白了就是让θ更好地体现出所观察到的数据,也就是似然,而估计就是计算结果啦,也就是θ值,结合起来就叫做最大似然估计。
当然在这里离不开贝叶斯公式的理解,我先带头装X。根据贝叶斯公式:
式1-2
我的理解是对于两个独立影响的类别A和随机事件B,即可以通过观察A来推测B也可以通过B来观察A,通过全概率公式,式1-2可以化为:
式1-3
我们假设存在参数空间可以求得估计值Θ,只要从多个可行解中找到最大值即可,也就是:
式 1-5
这里我们需要采用对数似然,为什么呢?大家看一下对数函数的曲线:
图1-1
大家可以看到,当底数a>1,x趋于无穷大时,对数函数的增长会越来越平缓,也就是斜率k会越趋近于0,当k=0时就是y取得最大值了。这和微分求导不谋而合,所以我们可以把目标函数转化为对数函数:
式1-6
当参数θ有多个时(此时θ为向量),则θ可表示为具有S个分量的未知参数,
计算偏微分算子:
式1-8
只要令式1-8等于0进行似然方程求解就可以了。
最后我们总结一下最大似然估计的特点:
①比其他估计方法简单,多部分传统的机器学习算法都采用了该方法进行参数估计;
②收敛性,只要训练样本集够大,理论上可以接近无偏估计;
③在选择假设模型时必须非常慎重,若偏差太大会导致估计结果非常差。
------------------------------又是可爱的分割线--------------------------
参考博客:
https://blog.csdn.net/u011508640/article/details/72815981
https://blog.csdn.net/zengxiantao1994/article/details/72787849
《每天解决一个知识点系列》
估计能翻到这一页博文的盆友都是行走在机器学习/数据挖掘的路上吧,自学之路真的苦不堪言,于是下定决心把自己学到的知识点记下来,和初入机器学习之坑的基友们一起显摆显摆。话不多说,我将从一个小白的角度解读一下我对极大似然估计的理解(我比较喜欢这样叫,但为了学习方便,我采取官方说法),各位看官请往下看。
-------------------------------我是羞羞的分割线-------------------------------------
我是比较喜欢概率论的东西,对于最大似然估计的概念大家可以通俗理解为用观察去猜测真实概率。比如给定一组观察得到的样本数据X,我们无法知晓这个随机变量(其实是某个事件发生的属性值,它有多重取值可能)真实的概率分布函数是怎样的。这时候我们希望通过收集到的样本数据去猜哪个参数会影响分布函数使得最终呈现出我们观察到的这些样本。
不过,我们聪明的统计学家已经为我们观察到了复杂世界存在的各种概率分布情况及其对应的计算公式,如“正态分布”、“二项分布”、“泊松分布”等。但细心的同学们一定会发现这些所谓的分布发生的概率是有规律的,有各自的计算公式,如假设随机事件X服从均值为µ,方差为σ2 的正态分布函数,那么事件X发生的概率如下:
但我们是不知道如何参数µ和σ是多少的,这时候就需要从样本中去估计了。于是可以下一个结论,最大似然估计的意思就是在已知观测数据X,参数θ未知的情况下求使出现该观测样本的概率值最大化,再反过来求解对应的参数值θ。说白了就是让θ更好地体现出所观察到的数据,也就是似然,而估计就是计算结果啦,也就是θ值,结合起来就叫做最大似然估计。
当然在这里离不开贝叶斯公式的理解,我先带头装X。根据贝叶斯公式:
式1-2
我的理解是对于两个独立影响的类别A和随机事件B,即可以通过观察A来推测B也可以通过B来观察A,通过全概率公式,式1-2可以化为:
式1-3
我们假设存在参数空间可以求得估计值Θ,只要从多个可行解中找到最大值即可,也就是:
式 1-5
这里我们需要采用对数似然,为什么呢?大家看一下对数函数的曲线:
图1-1
大家可以看到,当底数a>1,x趋于无穷大时,对数函数的增长会越来越平缓,也就是斜率k会越趋近于0,当k=0时就是y取得最大值了。这和微分求导不谋而合,所以我们可以把目标函数转化为对数函数:
式1-6
当参数θ有多个时(此时θ为向量),则θ可表示为具有S个分量的未知参数,
计算偏微分算子:
式1-8
只要令式1-8等于0进行似然方程求解就可以了。
最后我们总结一下最大似然估计的特点:
①比其他估计方法简单,多部分传统的机器学习算法都采用了该方法进行参数估计;
②收敛性,只要训练样本集够大,理论上可以接近无偏估计;
③在选择假设模型时必须非常慎重,若偏差太大会导致估计结果非常差。
------------------------------又是可爱的分割线--------------------------
参考博客:
https://blog.csdn.net/u011508640/article/details/72815981
https://blog.csdn.net/zengxiantao1994/article/details/72787849
来源:CSDN
作者:哈拉泽空
链接:https://blog.csdn.net/weixin_43727229/article/details/104689286