极大似然估计(MLE)学习总结

泄露秘密 提交于 2020-03-06 10:26:28

原文链接:极大似然估计(MLE)学习总结

    《每天解决一个知识点系列》

    估计能翻到这一页博文的盆友都是行走在机器学习/数据挖掘的路上吧,自学之路真的苦不堪言,于是下定决心把自己学到的知识点记下来,和初入机器学习之坑的基友们一起显摆显摆。话不多说,我将从一个小白的角度解读一下我对极大似然估计的理解(我比较喜欢这样叫,但为了学习方便,我采取官方说法),各位看官请往下看。

-------------------------------我是羞羞的分割线-------------------------------------

    我是比较喜欢概率论的东西,对于最大似然估计的概念大家可以通俗理解为用观察去猜测真实概率。比如给定一组观察得到的样本数据X,我们无法知晓这个随机变量(其实是某个事件发生的属性值,它有多重取值可能)真实的概率分布函数是怎样的。这时候我们希望通过收集到的样本数据去猜哪个参数会影响分布函数使得最终呈现出我们观察到的这些样本。

    不过,我们聪明的统计学家已经为我们观察到了复杂世界存在的各种概率分布情况及其对应的计算公式,如“正态分布”、“二项分布”、“泊松分布”等。但细心的同学们一定会发现这些所谓的分布发生的概率是有规律的,有各自的计算公式,如假设随机事件X服从均值为µ,方差为σ2 的正态分布函数,那么事件X发生的概率如下:

           式1-1

    但我们是不知道如何参数µ和σ是多少的,这时候就需要从样本中去估计了。于是可以下一个结论,最大似然估计的意思就是在已知观测数据X,参数θ未知的情况下求使出现该观测样本的概率值最大化,再反过来求解对应的参数值θ。说白了就是让θ更好地体现出所观察到的数据,也就是似然,而估计就是计算结果啦,也就是θ值,结合起来就叫做最大似然估计。

    当然在这里离不开贝叶斯公式的理解,我先带头装X。根据贝叶斯公式:

             式1-2

    我的理解是对于两个独立影响的类别A和随机事件B,即可以通过观察A来推测B也可以通过B来观察A,通过全概率公式,式1-2可以化为:

                式1-3

    举个栗子,在当我憋着尿想要上厕所时,由于人多我只能排队,这时我看到前面站着一位长头发的人,身材消瘦,打扮时尚,于是乎我想猜这个人是男是女。开始分析问题,由观察已知,A1={性别为男}=1/3,A2={性别为女}=2/3,这就是所谓的先验概率;然后别人告诉我来这里上厕所的人中留长头发(事件B)的男生达到1/10,女生达到9/10,要怎么求解问题呢?
    很简单,P(B)=19/30,那么留长头发的人是男生的猜测概率为P(A1|B)=1/19,是女生的猜测概率P(A2|B)=18/19,这是后验概率。大家自己代入上面的公式去算哦,其实你们在计算的时候有没有发现,所谓的后验概率其实就是男生或女生中有留长头发的事件发生的权重比,它高度依赖于先验观察到的概率。所以我们可以总结一下,如果想要根据仅有的样本数据进行分类,一种可行的办法是我们需要先对先验概率和分类的条件概率进行估计才能套用贝叶斯公式。  先验概率的估计较简单,1、每个样本所属的自然状态都是已知的或者需要依靠经验进行设定。
     类条件概率的估计(非常难),原因包括:概率密度函数包含了一个随机变量的全部信息;样本数据可能不多;特征向量x的维度可能很大等等。总之要直接估计类条件概率的密度函数很难。解决的办法就是,把估计完全未知的概率密度转化为估计参数。这里就将概率密度估计问题转化为参数估计问题,极大似然估计就是一种参数估计方法。当然了,概率密度函数的选取很重要,模型正确,在样本区域无穷时,我们会得到较准确的估计值,如果模型都错了,那估计半天的参数,肯定也没啥意义了。
    再次举个栗子演示如何求解参数θ。假设样本集是独立同分布的,现有样本集合D={x1,x2,...,xn},联合密度函数P(D|θ)称为相对于样本集D参数为θ的似然函数。令似然函数(Likelihood Function)等于如下公式:
            式1-4

    我们假设存在参数空间可以求得估计值Θ,只要从多个可行解中找到最大值即可,也就是:

                式 1-5 

    这里我们需要采用对数似然,为什么呢?大家看一下对数函数的曲线:




                                           图1-1


    大家可以看到,当底数a>1,x趋于无穷大时,对数函数的增长会越来越平缓,也就是斜率k会越趋近于0,当k=0时就是y取得最大值了。这和微分求导不谋而合,所以我们可以把目标函数转化为对数函数:

                      式1-6

    当参数θ有多个时(此时θ为向量),则θ可表示为具有S个分量的未知参数,

                                式1-7

    计算偏微分算子:

                     式1-8

    只要令式1-8等于0进行似然方程求解就可以了。

    最后我们总结一下最大似然估计的特点:

    ①比其他估计方法简单,多部分传统的机器学习算法都采用了该方法进行参数估计;

    ②收敛性,只要训练样本集够大,理论上可以接近无偏估计;

    ③在选择假设模型时必须非常慎重,若偏差太大会导致估计结果非常差。


------------------------------又是可爱的分割线--------------------------

参考博客:

https://blog.csdn.net/u011508640/article/details/72815981

https://blog.csdn.net/zengxiantao1994/article/details/72787849

        《每天解决一个知识点系列》

        估计能翻到这一页博文的盆友都是行走在机器学习/数据挖掘的路上吧,自学之路真的苦不堪言,于是下定决心把自己学到的知识点记下来,和初入机器学习之坑的基友们一起显摆显摆。话不多说,我将从一个小白的角度解读一下我对极大似然估计的理解(我比较喜欢这样叫,但为了学习方便,我采取官方说法),各位看官请往下看。

    -------------------------------我是羞羞的分割线-------------------------------------

        我是比较喜欢概率论的东西,对于最大似然估计的概念大家可以通俗理解为用观察去猜测真实概率。比如给定一组观察得到的样本数据X,我们无法知晓这个随机变量(其实是某个事件发生的属性值,它有多重取值可能)真实的概率分布函数是怎样的。这时候我们希望通过收集到的样本数据去猜哪个参数会影响分布函数使得最终呈现出我们观察到的这些样本。

        不过,我们聪明的统计学家已经为我们观察到了复杂世界存在的各种概率分布情况及其对应的计算公式,如“正态分布”、“二项分布”、“泊松分布”等。但细心的同学们一定会发现这些所谓的分布发生的概率是有规律的,有各自的计算公式,如假设随机事件X服从均值为µ,方差为σ2 的正态分布函数,那么事件X发生的概率如下:

               式1-1

        但我们是不知道如何参数µ和σ是多少的,这时候就需要从样本中去估计了。于是可以下一个结论,最大似然估计的意思就是在已知观测数据X,参数θ未知的情况下求使出现该观测样本的概率值最大化,再反过来求解对应的参数值θ。说白了就是让θ更好地体现出所观察到的数据,也就是似然,而估计就是计算结果啦,也就是θ值,结合起来就叫做最大似然估计。

        当然在这里离不开贝叶斯公式的理解,我先带头装X。根据贝叶斯公式:

                 式1-2

        我的理解是对于两个独立影响的类别A和随机事件B,即可以通过观察A来推测B也可以通过B来观察A,通过全概率公式,式1-2可以化为:

                    式1-3

        举个栗子,在当我憋着尿想要上厕所时,由于人多我只能排队,这时我看到前面站着一位长头发的人,身材消瘦,打扮时尚,于是乎我想猜这个人是男是女。开始分析问题,由观察已知,A1={性别为男}=1/3,A2={性别为女}=2/3,这就是所谓的先验概率;然后别人告诉我来这里上厕所的人中留长头发(事件B)的男生达到1/10,女生达到9/10,要怎么求解问题呢?
        很简单,P(B)=19/30,那么留长头发的人是男生的猜测概率为P(A1|B)=1/19,是女生的猜测概率P(A2|B)=18/19,这是后验概率。大家自己代入上面的公式去算哦,其实你们在计算的时候有没有发现,所谓的后验概率其实就是男生或女生中有留长头发的事件发生的权重比,它高度依赖于先验观察到的概率。所以我们可以总结一下,如果想要根据仅有的样本数据进行分类,一种可行的办法是我们需要先对先验概率和分类的条件概率进行估计才能套用贝叶斯公式。  先验概率的估计较简单,1、每个样本所属的自然状态都是已知的或者需要依靠经验进行设定。
         类条件概率的估计(非常难),原因包括:概率密度函数包含了一个随机变量的全部信息;样本数据可能不多;特征向量x的维度可能很大等等。总之要直接估计类条件概率的密度函数很难。解决的办法就是,把估计完全未知的概率密度转化为估计参数。这里就将概率密度估计问题转化为参数估计问题,极大似然估计就是一种参数估计方法。当然了,概率密度函数的选取很重要,模型正确,在样本区域无穷时,我们会得到较准确的估计值,如果模型都错了,那估计半天的参数,肯定也没啥意义了。
        再次举个栗子演示如何求解参数θ。假设样本集是独立同分布的,现有样本集合D={x1,x2,...,xn},联合密度函数P(D|θ)称为相对于样本集D参数为θ的似然函数。令似然函数(Likelihood Function)等于如下公式:
                式1-4

        我们假设存在参数空间可以求得估计值Θ,只要从多个可行解中找到最大值即可,也就是:

                    式 1-5 

        这里我们需要采用对数似然,为什么呢?大家看一下对数函数的曲线:




                                               图1-1


        大家可以看到,当底数a>1,x趋于无穷大时,对数函数的增长会越来越平缓,也就是斜率k会越趋近于0,当k=0时就是y取得最大值了。这和微分求导不谋而合,所以我们可以把目标函数转化为对数函数:

                          式1-6

        当参数θ有多个时(此时θ为向量),则θ可表示为具有S个分量的未知参数,

                                    式1-7

        计算偏微分算子:

                         式1-8

        只要令式1-8等于0进行似然方程求解就可以了。

        最后我们总结一下最大似然估计的特点:

        ①比其他估计方法简单,多部分传统的机器学习算法都采用了该方法进行参数估计;

        ②收敛性,只要训练样本集够大,理论上可以接近无偏估计;

        ③在选择假设模型时必须非常慎重,若偏差太大会导致估计结果非常差。


    ------------------------------又是可爱的分割线--------------------------

    参考博客:

    https://blog.csdn.net/u011508640/article/details/72815981

    https://blog.csdn.net/zengxiantao1994/article/details/72787849

    易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
    该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!