中心极限定理是指随着样本容量n的增加,样本的均值抽样分布的形态也随之发生变化,将越来越
接近于正态分布。通常将样本容量n大于30的样本称为大样本,大样本组成的均值抽样分布可以被
认为是服从正态分布的。
参数估计有两种方法:点估计和区间估计,区间估计包含了点估计。二者的相同点都是基于一个样本作出;不同点是点估计只提供单一的估计值,而区间估计在点估计的基础上还提供了一个误差界限,给出了取值范围——这个取值范围又叫置信区间(confidence interval),受置信度(一个概率值,即进行估计前必须事先确定的估计的把握度)影响,根据中心极限定理推导得来。
我们可以通过中心极限定理来倒推参数估计方法,整个倒推的思路是这样的:
区间估计实际上是抽一个样本,然后用这个样本的统计量来估计总体参数。比如想知道全校同学的每天平均学习时间(参数),就通过随机抽样找了100个同学作为样本,然后用这100个同学的平均学习时间(统计量),比如说2小时,并加减一个误差比如说半小时(关于这个误差的大小怎么定有空再说)来得到一个估计的范围。
但从一个总体可以抽许许多多样本,从全校10000名学生可以抽取到许许多多100位同学的组合,凭啥只相信一次抽样的结果?光凭一次抽样、并且只有100个同学来估计10000个同学到底靠不靠谱?
所以,在最终只用一个样本来估计总体前,必须先知道如果抽取了许许多多样本会发生什么情况?也就是必须先知道抽样分布的规律——如果我们把同样大小的所有可能的样本都抽完,样本的统计量有何分布特征?
中心极限定理就告诉了我们样本统计量的分布特征,也就是在一定条件下(总体正态、或大样本),统计量将以总体参数为中心、抽样标准误差(描述抽样分布离散度的术语)为离散度的正态分布。
这就好比射击,射出的子弹(统计量)就是围绕靶心(参数)分布,并且,大部分子弹将聚集在靶心周围——如果想提高聚集度、减少误差,那可以增大样本来减少抽样标准误。
有了中心极限定理,我们就知道参数在哪、统计量就不会离参数左右——这是正推。反过来,当我们进行估计——用统计量来倒推。
总的来说参数估计就是在我们不知道函数参数的时候来大概估计一个参数,带入方程得到数据形态。
下面我们来具体了解一下这两种估计方法。
点估计
点估计包括矩阵估计、顺序统计法、极大似然估计法法、最小二乘法。这里主要说一下极大似然估计法法与最小二乘法
极大似然估计
极大似然估计即通过估计参数的值使实际的实验结果出现的概率最大。先预测几个参数,通过实验,倒推这几个参数产生的结果是不是最大概率,然后调整参数,选定参数,我们还举例抛硬币吧:
假设一个硬币现在不知道材质是否均匀,且抛了10次硬币,有6次是花,
我们先假定材质是一样的,那么每次抛出花的概率为0.5,实验结果的概率为:
假设材质不一样,花的一枚密度大一点,每次抛出花的概率就大一点为0.6,实验结果概率为:
通过两个概率的比值我们可以认为,0.6作为参数的可能性是0.5作为参数的可能性的1.2倍
这种倒推的感觉有没有让你想起来什么,对了贝叶斯定理!我们说贝叶斯定理也是对之前提出的假设进行调整然后得出结论那贝叶斯与极大似然估计有何异同呢?还是举硬币的例子吧:
相同:如果扔100次硬币,100次出现都是字,无论是贝叶斯或者极大似然估都认为必须对之前
假设的硬币概率参数进行调整,不再是0.5的概率。
不同:贝叶斯定理会考虑一个事实性的基础概率,即两面都是字的可能性很小,即使调整了参数
依然不会考虑这种情况(即概率是1)。但是极大似然估计就不会考虑这个因素。
最小二乘法
在线性回归计算中最常用的就是最小二乘法。二乘就是平方的意思,所以最小二乘法就是将误差的平方求和(观测值-理论值)。经常与其对比的是最小绝对值方法,就是误差的绝对值,这里就有点像方差和标准差的区别。那为什么平时我们用个最小二乘发更多呢。
相比最小绝对值法而言最小二乘法有以下优点:
最优解唯一。对于最小二乘法而言,只要变量不是多重共线性的,解就是唯一的。但是对于最小绝对值却不是固定的。举例而言,如果我们没有任何自变量(x),而只用截距去回归。最小二乘法会用平均值作为预测值,而最小绝对值法会得出中位数,而中位数不是唯一的,当数据有偶数个时中位数有两个,所以最小绝对值的结果可能是这两个中位数的任何一个。
求解方便。对于最小二乘法而言,由于误差项是处处可导而且导数是连续的,所以我们可以写出求解方程等式。但是对于最小绝对值而言,由于在原点不可导,所以求解会比较负责,而且导数相对恒定,所以最小绝对值也有导数过大的问题。
有好的解释性。最小二乘法在正态分布假设下可以用极大释然估计解释,也可以证明最优线性无偏。
区间估计
点估计仍然属于描述性统计范畴,要是从抽样分布角度出发,估计参数可能跳跃范围还需要区间估计。
区间估计中有几个关键的定义首先是置信区间和置信水平:
置信区间
区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间(confidence interval),其中区间的最小值称为置信下限,最大值称为置信上限。
置信水平
置信水平又叫置信度用来表示置信区间的可信度。置信水平一般设为90%、95%和99%。
区间估计可以有几种情况进行分类,当只有一个总体时大体可以分为总体均值、比例、方差进行区间估计;当估计两个总体时可以按照两个总体的均值、比例之差或者方差之比进行区间估计。
1、总体均值的区间估计
对总体均值进行区间估计时,需要考虑总体是否为正态分布,总体方差是否已知,用于构造估计量的样本是大样本(通常要求n≥30)还是小样本(n<30)等几种情况。下面分两种情况来分析:
(1)正态总体、方差已知,或非正态总体、大样本
当总体服从正态分布且方差已知,或总体非正态分布但样本为大样本时,样本均值x的抽样分布服从正态分布,其数学期望为总体均值μ,方差为σ2/n。样本均值经过标准化后的随机变量则服从正态分布。
(2)正态总体、方差未知、小样本
在总体服从正态分布的情况下,如果总体方差σ2未知,且样本较小的情况下,需要用样本方差s2代替σ2。这时,样本均值经过标准化以后的随机变量服从自由度为(n-1)的t分布。
2、总体比例的区间估计
在大样本的前提下,样本比例p的抽样分布可用正态分布近似。p的数学期望为E§=π,p的方差为σ2p=π(1-π)/n。而样本比例经标准化后的随机变量则服从标准正态分布。
3、总体方差的区间估计
对于总体方差的估计,这里只讨论正态总体方差的估计。根据样本方差的抽样分布可知,样本方差服从自由度为n-1的χ2分布。因此用χ2分布构造总体方差的置信区间。
来源:CSDN
作者:李佳星
链接:https://blog.csdn.net/weixin_43975220/article/details/103706535