参数估计

因子分析

主宰稳场 提交于 2020-01-25 19:09:34
1 问题 之前我们考虑的训练数据中样例 的个数m都远远大于其特征个数n,这样不管是进行回归、聚类等都没有太大的问题。然而当训练样例个数m太小,甚至m<<n的时候,使用梯度下降法进行回归时,如果初值不同,得到的参数结果会有很大偏差(因为方程数小于参数个数)。另外,如果使用多元高斯分布(Multivariate Gaussian distribution)对数据进行拟合时,也会有问题。让我们来演算一下,看看会有什么问题: 多元高斯分布的参数估计公式如下: 分别是求mean和协方差的公式, 表示样例,共有m个,每个样例n个特征,因此 是n维向量, 是n*n协方差矩阵。 当m<<n时,我们会发现 是奇异阵( ),也就是说 不存在,没办法拟合出多元高斯分布了,确切的说是我们估计不出来 。 如果我们仍然想用多元高斯分布来估计样本,那怎么办呢? 2 限制协方差矩阵 当没有足够的数据去估计 时,那么只能对模型参数进行一定假设,之前我们想估计出完全的 (矩阵中的全部元素),现在我们假设 就是对角阵(各特征间相互独立),那么我们只需要计算每个特征的方差即可,最后的 只有对角线上的元素不为0 回想我们之前讨论过的二维多元高斯分布的几何特性,在平面上的投影是个椭圆,中心点由 决定,椭圆的形状由 决定。 如果变成对角阵,就意味着椭圆的两个轴都和坐标轴平行了。 如果我们想对 进一步限制的话

【概率论与数理统计】小结6 - 大数定理与中心极限定理

可紊 提交于 2020-01-24 23:42:44
注 :这两个定理可以说是概率论中最重要的两个定理。也是由于中心极限定理的存在,使得正态分布从其他众多分布中脱颖而出,成为应用最为广泛的分布。这两个定理在概率论的历史上非常重要,因此对于它们的研究也横跨了几个世纪(始于18世纪初),众多耳熟能详的大数学家都对这两个定理有自己的贡献。因此,这两个定理都不是单一的定理。不同的大数定理和中心极限定理从不同的方面对相同的问题进行了阐述,它们条件各不相同,得到的结论的强弱程度也不一样。 1. 大数定理(law of large numbers,LLN) 图1-1,伯努利(1655-1705) 大数定律可以说是整个数理统计学的一块基石,最早的大数定律由伯努利在他的著作《推测术》中提出并给出了证明。这本书出版于伯努利去世后的1713年。数理统计学中包含两类重要的问题——对概率p的检验与估计。大数定律的本质是一类极限定理,它是由概率的统计定义“频率收敛于概率”引申而来的。简单来说就是n个独立同分布的随机变量的观察值的均值$\bar{X}$依概率收敛于这些随机变量所属分布的理论均值,也就是总体均值。 举一个古典概率模型的例子:拿一个盒子,里面装有大小、质地一样的球a+b个,其中白球a个,黑球b个。这时随机地从盒子中抽出一球(意指各球有同等可能被抽出),则“抽出的球为白球”这一事件A的概率p=a/(a+b).但是如果不知道a、b的比值,则p也不知道

似然,似然,似是而然!

久未见 提交于 2020-01-21 19:06:05
似然,似然,似是而然! 1.1 似然是蛤? 在统计学中,似然和概率可是两码事。  概率:在已知的模型下,某事件发生的可能性。  似然:在未知的模型下,发生了一系列的事件,有这些事件的结果去估计该未知模型的相关参数(条件)。  举一个小例子可能会更形象。现在我有一枚标准的硬币,我将它抛在了空中,这时我想知道它落地时是正面朝上的可能性是多少?毫无疑问,因为该硬币是标准的,正面和反面朝上的概率是~~ 五五开~~(卢老爷警告)50%。而似然就是,现在我拿到的硬币可能不在是标准的,有可能正面比反面重也有可能是相反的情况,我将这个硬币抛了一千次,发现有700次是正面朝上,300次是反面朝上。那么我可以估计这枚硬币不是标准的硬币,这枚非标准的硬币的随意一抛正面朝上的概率(参数)估计为0.7(标准硬币 的参数为0.5)。 总的来说:概率就是在已知模型下,对可能发生的救国进行描述。似然就是通过已经得到的结果发生该结果的模型进行描述。 1.2 似然函数又是蛤?   概率密度函数: P ( x ∣ θ ) P ( x|\theta ) P ( x ∣ θ )  似然函数: L ( θ ∣ x ) L ( \theta | x ) L ( θ ∣ x )   在x和 θ \theta θ 相互对应时,两个函数的数值是相等。但两个函数所表示的含义是完全不同的。似然函数是给定参数的情况下

概率、统计、最大似然估计、最大后验估计、贝叶斯定理、朴素贝叶斯、贝叶斯网络

匆匆过客 提交于 2020-01-18 02:17:58
这里写自定义目录标题 概率和统计是一个东西吗? 概率函数与似然函数 最大似然估计(MLE) 最大后验概率估计 最大后验估计的例子 贝叶斯派观点 VS 频率派观点 贝叶斯定理 朴素贝叶斯分类器 朴素贝叶斯分类器实例 贝叶斯网络 贝叶斯网络的结构形式 因子图 从贝叶斯网络来观察朴素贝叶斯 概率和统计是一个东西吗? 概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。 概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。 统计是,有一堆数据,要利用这堆数据去预测模型和参数。 仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中,也是通过观察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪,等等(推测模型参数)。 一句话总结: 概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。 显然, 本文解释的MLE(最大似然估计)和MAP(最大后验估计)都是统计领域的问题。它们都是用来推测参数的方法(不是推测模型

数理统计和参数估计相关概念知识总结

梦想的初衷 提交于 2020-01-04 00:51:02
引言 为了系统地复习机器学习相关算法及基础知识,对学过的知识进行一定的整理。 正文 事件的独立性(Independence) 定义:如果事件A和事件B满足 P ( A B ) = P ( A ) P ( B ) P(A B)=P(A) P(B) P ( A B ) = P ( A ) P ( B ) ,则称事件A和事件B独立。举个例子:如果一个人语文考试通过为事件A,数学考试通过为事件B,这两个考试一点关系都没有,互不影响,所以这个人同时通过两科考试的概率就应该等于通过语文考试的概率乘以通过数学考试的概率。 既然A、B是独立的,那么就有 P ( A ∣ B ) = P ( A ) P(A | B)=P(A) P ( A ∣ B ) = P ( A ) 。过了数学考试,语文考试就稳了吗?不存在的,没有半毛钱关系。 期望(Expectation) 期望就是概率加权平均值,不多扯了,上公式。 离散型: E ( X ) = ∑ i x i p i E(X)=\sum_{i} x_{i} p_{i} E ( X ) = ∑ i ​ x i ​ p i ​ 连续型: E ( X ) = ∫ − ∞ ∞ x f ( x ) d x E(X)=\int_{-\infty}^{\infty} x f(x) d x E ( X ) = ∫ − ∞ ∞ ​ x f ( x ) d x 对于编程来说

参数估计:最大似然、贝叶斯与最大后验

房东的猫 提交于 2019-12-30 20:46:34
转:https://guangchun.wordpress.com/2011/10/13/ml-bayes-map/ 中国有句话叫“ 马后炮 ”, 大体上用在中国象棋和讽刺人两个地方,第一个很厉害,使对方将帅不得动弹,但这个跟我们今天说的基本没关系;第二个用途源于第一个,说事情都发生了再采取 措施,太迟了。但不可否认,我们的认知就是从错误中不断进步,虽然已经做错的不可能变得正确,但“来者尤可追”,我们可以根据既往的经验(数据),来判断 以后应该采取什么样的措施。这其实就是有监督机器学习的过程。其中涉及的一个问题就是模型中参数的估计。 为什么会有参数估计呢?这要源于我们对所研究问题的简化和假设。我们在看待一个问题的时候,经常会使用一些我们所熟知的经典的模型去简化问题,就像 我们看一个房子,我们想到是不是可以把它看成是方形一样。如果我们已经知道这个房子是三间平房,那么大体上我们就可以用长方体去描述它的轮廓。这个画房子 的问题就从无数的可能性中,基于方圆多少里大家都住平房的 经验 ,我们可以 假设 它是长方体,剩下的问题就是确定长宽高这三个 参数 了,问题被简化了。再如学生考试的成绩,根据既往的经验,我们可以假设学生的成绩是正态分布的,那么剩下的问题就是确定分布的期望和方差。所以, 之所以要估计参数,是因为我们希望用较少的参数去描述数据的总体分布

逻辑回归模型

不打扰是莪最后的温柔 提交于 2019-12-30 12:02:19
逻辑回归模型 - zgw21cn - 博客园 逻辑回归模型 1. 逻辑 回 归 模型 1.1逻辑回归模型 考虑具有p个独立变量的向量 ,设条件概率 为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为 (1.1) 上式右侧形式的函数称为称为逻辑函数。下图给出其函数图象形式。 其中 。如果含有名义变量,则将其变为dummy变量。一个具有k个取值的名义变量,将变为k-1个dummy变量。这样,有 (1.2) 定义不发生事件的条件概率为 (1.3) 那么,事件发生与事件不发生的概率之比为 (1.4) 这个比值称为事件的发生比(the odds of experiencing an event),简称为odds。因为0<p<1,故odds>0。对odds取对数,即得到线性函数, (1.5) 1.2极大似然函数 假设有n个观测样本,观测值分别为 设 为给定条件下得到 的概率。在同样条件下得到 的条件概率为 。于是,得到一个观测值的概率为 (1.6) 因为各项观测独立,所以它们的联合分布可以表示为各边际分布的乘积。 (1.7) 上式称为n个观测的似然函数。我们的目标是能够求出使这一似然函数的值最大的参数估计。于是,最大似然估计的关键就是求出参数 ,使上式取得最大值。 对上述函数求对数 (1.8) 上式称为对数似然函数。为了估计能使 取得最大的参数 的值。 对此函数求导,得到p+1个似然方程

假设检验

安稳与你 提交于 2019-12-28 13:13:58
(1)参数估计 和 假设检验 是统计推断的两个组成部分,它们都是利用 样本 对 总体 进行某种推断,但推断的角度不同。 参数估计 讨论的是用 样本统计量 估计 总体参数 的方法,总体参数μ在估计前是未知的。 而在 假设检验 中,则是先对总体参数μ的值提出一个假设,然后利用 样本信息 去检索这个假设是否成立。 (2)原假设 和 备择假设 的关系? 原假设H0(又称“ 零假设 ”) & 备择假设H1(又称“ 替换假设 ”) 原假设与备择假设互斥,肯定原假设,意味着放弃备择假设;否定原假设,意味着接受备择假设。 (3) 两类错误--( α错误 & β错误 ) α错误【弃真错误】:原假设为真,却被拒绝 β错误【取伪错误】:原假设为伪,却被接受 在假设检验中,如何对两类错误进行控制,准则有哪些? 一般来说,哪一类错误所带来的后果越严重,危害越大,在假设检验中就应该把哪一类错误作为首要控制目标。 首先控制犯 α错误 原则。 原因有两点: 1. 大家都遵循一个统一的原则,讨论问题就比较方便 2. 从实用的观点看,原假设是什么常常是明确的,而备择假设是什么则常常是模糊的(最主要的原因) 对于一个含义清楚的假设和一个含义模糊的假设,人们是更愿意接受前者,正是这样的背景下,人们就更为关心如果原假设H0为真,而人们却把它拒绝了,犯这种错误的可能性有多大。而这正是 α错误 所表现的内容 。 (3)

python实现参数估计-置信区间

本秂侑毒 提交于 2019-12-28 13:13:07
一、关于体温、性别、心率的临床数据 对男性体温抽样计算下95%置信区间总体均值范围。转自: https://www.jianshu.com/p/a3efca8371eb import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt #读取数据 df = pd.read_csv('http://jse.amstat.org/datasets/normtemp.dat.txt', header = None,sep = '\s+' ,names=['体温','性别','心率']) #选取样本大小,查看数据 np.random.seed(42) #df.describe() #样本量为90,查看样本数据 df_sam = df.sample(90) df_sam.head() #计算抽取样本中男士体温的均值 df3 = df_sam.loc[df_sam['性别']==1] df3['体温'].mean() #重复抽取样本,计算其他样本中男士体温的均值,得到抽样分布 boot_means = [] for _ in range(10000): bootsample = df.sample(90, replace=True) mean = bootsample

参数估计

核能气质少年 提交于 2019-12-26 11:21:57
中心极限定理是指随着样本容量n的增加,样本的均值抽样分布的形态也随之发生变化,将越来越 接近于正态分布。通常将样本容量n大于30的样本称为大样本,大样本组成的均值抽样分布可以被 认为是服从正态分布的。 参数估计有两种方法:点估计和区间估计,区间估计包含了点估计。二者的相同点都是基于一个样本作出;不同点是点估计只提供 单一 的估计值,而区间估计在点估计的基础上还提供了一个 误差界限 ,给出了取值范围——这个取值范围又叫置信区间(confidence interval),受置信度(一个概率值,即进行估计前必须事先确定的估计的把握度)影响,根据中心极限定理推导得来。 我们可以通过中心极限定理来 倒推 参数估计方法,整个倒推的思路是这样的: 区间估计实际上是抽一个样本,然后用这个样本的统计量来估计总体参数。比如想知道全校同学的每天平均学习时间(参数),就通过随机抽样找了100个同学作为样本,然后用这100个同学的平均学习时间(统计量),比如说2小时,并加减一个误差比如说半小时(关于这个误差的大小怎么定有空再说)来得到一个估计的范围。 但从一个总体可以抽许许多多样本,从全校10000名学生可以抽取到许许多多100位同学的组合,凭啥只相信一次抽样的结果?光凭一次抽样、并且只有100个同学来估计10000个同学到底靠不靠谱? 所以,在最终只用一个样本来估计总体前