抽样分布

统计1:概述

て烟熏妆下的殇ゞ 提交于 2020-03-07 06:57:13
概率论是人们在长期实践中发现的理论,是客观存在的。自然界和社会上发生的现象是多种多样的,有一类现象,在一定条件下必然发生,称作确定性现象,而概率论研究的现象是不确定性现象,嗯嗯,醒醒,概率论研究的对象是 随机现象 。那什么是随机现象呢?在个别试验中呈现出不确定性,而在大量重复实验中呈现出固有规律性的现象,称作随机现象,在大量重复实验中所呈现的固有规律,是统计规律性,也就是概率。 一,概率和频率 在提到概率之前,不得不说频率。对于一个随机事件来说,在一次试验中可能发生,也可能不发生,那么,如何表征事件在一次试验中发生的可能性大小呢?为了解答这个问题,引入了频率。频率描述了事件发生的频繁程度,频率越大,事件发生的越频繁,这意味着事件在一次试验中发生的可能性越大。我们定义,概率表征事件在一次试验中发生的可能性大小,因此,可从频率引出概率。 大数定理和中心极限定理是概率论的基本理论。大数定理论证了频率具有稳定性,中心极限定理表明了正态分布是普遍适用的。 概率是事件的固有规律,必须是稳定的一个数值,频率具有稳定性吗?在长期实践中,当试验次数不断增大时,事件发生的频率稳定在一个值附近,这一客观事实证明频率具有稳定性。 伯努利大数定理 用数学公式证明了频率的稳定性,因此,在实际应用中,当试验次数很大时,可以用事件的频率来代替事件的概率,用于表征事件发生的可能性大小。

随机采样方法整理与讲解(MCMC、Gibbs Sampling等)

拟墨画扇 提交于 2020-02-11 20:02:39
http://www.tuicool.com/articles/fqEf6f 本文是对参考资料中多篇关于sampling的内容进行总结+搬运,方便以后自己翻阅。其实参考资料中的资料写的比我好,大家可以看一下!好东西多分享!PRML的第11章也是sampling,有时间后面写到PRML的笔记中去:) 背景 随机模拟也可以叫做蒙特卡罗模拟(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时的几个大牛,包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候,开始使用统计模拟的方法,并在最早的计算机上进行编程实现。[3] 随机模拟中有一个重要的问题就是给定一个概率分布 p ( x ) ,我们如何在计算机中生成它的样本。一般而言均匀分布 U n i f o r m ( 0 , 1 ) 的样本是相对容易生成的。 通过线性同余发生器可以生成伪随机数,我们用确定性算法生成 [ 0 , 1 ] 之间的伪随机数序列后,这些序列的各种统计指标和均匀分布 U n i f o r m ( 0 , 1 ) 的理论计算结果非常接近。这样的伪随机序列就有比较好的统计性质,可以被当成真实的随机数使用。 下面总结这么几点: 1、蒙特卡洛数值积分 2、均匀分布

什么是无偏估计?

假装没事ソ 提交于 2020-01-29 10:46:29
无偏估计 所谓总体参数估计量的无偏性指的是 , 基于不同的样本,使用该估计量可算出多个估计值,但它们的平均值等于被估参数的真值。 在某些场合下,无偏性的要求是有实际意义的。例如,假设在某厂商与某销售商之间存在长期的供货关系,则在对产品出厂质量检验方法的选择上,采用随机抽样的方法来估计次品率就很公平。这是因为从长期来看,这种估计方法是无偏的。比如这一次所估计出来的次品率实际上偏高,厂商吃亏了;但下一次的估计很可能偏低,厂商的损失就可以补回来。由于双方的交往会长期多次发生 , 这时采用无偏估计,总的来说可以达到互不吃亏的效果。 不过,在某些场合中,无偏性的要求毫无实际意义。这里又有两种情况:一种情况是在某些场合中不可能发生多次抽样。例如,假设在某厂商和某销售商之间只会发生一次买卖交易,此后不可能再发生第二次商业往来。这时双方谁也吃亏不起,这里就没有什么“平均”可言。另一种情况则是估计误差不可能相互补偿,因此“平均”不得。例如,假设需要通过试验对一个批量的某种型号导弹的系统误差做出估计。这个时候,既使我们的估计的确做到了无偏,但如果这一批导弹的系统误差实际上要么偏左,要么偏右,结果只能是大部分导弹都不能命中目标,不可能存在“偏左”与“偏右”相互抵消,从而“平均命中”的概念。 由此可见,具有无偏性的估计量不一定就是我们“最需要”的“恰当”估计量 在概率论和数量统计中,学习过无偏估计

Gibbs抽样

生来就可爱ヽ(ⅴ<●) 提交于 2019-12-26 08:16:06
具体的说,Gibbs抽样是已知多维随机变量 X = ( X 1 , X 2 , . . . , X n ) X = (X_1,X_2,...,X_n) X = ( X 1 ​ , X 2 ​ , . . . , X n ​ ) 的联合概率分布 p ( x 1 , x 2 , . . . , x n ) p(x_1,x_2,...,x_n) p ( x 1 ​ , x 2 ​ , . . . , x n ​ ) ,,求X的函数G(X)的数学期望的方法: 给出一组初始抽样(如随机抽样); 利用联合概率分布和当前抽样,计算每一分量的条件概率分布 由2生成的条件概率分布重新生成一组抽样,计算G,返回2,迭代至G(X)的值平均收敛 得到的收敛值就是对G(X)的数学期望的近似。 注意到第2、3项要结合进行,没计算一次条件概率,就生成一个新的抽样,更新原抽样。 来源: CSDN 作者: Philtell 链接: https://blog.csdn.net/CCCrunner/article/details/103696295

参数估计

蓝咒 提交于 2019-12-23 02:37:41
CONTENTS 点估计 矩估计 区间估计 样本量的确定 点估计 点估计是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。点估计和区间估计属于总体参数估计问题。何为总体参数统计,当在研究中从样本获得一组数据后,如何通过这组信息,对总体特征进行估计,也就是如何从局部结果推论总体的情况,称为总体参数估计。 矩估计 矩估计,即矩估计法,也称“矩法估计”,就是利用样本矩来估计总体中相应的参数。首先推导涉及感兴趣的参数的总体矩(即所考虑的随机变量的幂的期望值)的方程。然后取出一个样本并从这个样本估计总体矩。接着使用样本矩取代(未知的)总体矩,解出感兴趣的参数。从而得到那些参数的估计。 区间估计 区间估计是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。与点估计不同,进行区间估计时,根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。下面将以总体均值的区间估计为例来说明区间估计的基本原理。 样本量的确定 一、估计总体均值时样本容量的确定 1.重复抽样 一旦确定了置信水平(1-α),Zα/2的值就确定了,对于给定的的值和总体标准差σ,就可以确定任一希望的允许误差所需要的样本容量。令E代表所希望达到的允许误差,即: 由此可以推到出确定样本容量的公式如下: 2.不重复抽样

R语言第八讲 评估模型之交叉验证法分析案例

我是研究僧i 提交于 2019-12-19 01:21:51
题目 评估Auto数据集上拟合多个线性模型所产生的测试错误率。Auto数据集是存在与ISLR程序包中的一个摩托车相关数据的数据集,读者可自行下载ISLR程序包,并将Auto数据集加载。 相关资料 交叉验证 是在机器学习建立模型和验证模型参数时常用的办法。交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓“交叉”。 那么什么时候才需要交叉验证呢?交叉验证用在数据不是很充足的时候。比如在我日常项目里面,对于普通适中问题,如果数据样本量小于一万条,我们就会采用交叉验证来训练优化选择模型。如果样本大于一万条的话,我们一般随机的把数据分成三份,一份为训练集(Training Set),一份为验证集(Validation Set),最后一份为测试集(Test Set)。用训练集来训练模型,用验证集来评估模型预测的好坏和选择模型及其对应的参数。把最终得到的模型再用于测试集,最终决定使用哪个模型以及对应参数。 回到交叉验证,根据切分的方法不同,交叉验证分为下面三种: 第一种是简单交叉验证, 所谓的简单,是和其他交叉验证方法相对而言的。首先,我们随机的将样本数据分为两部分(比如: 70%的训练集,30

统计词汇

人走茶凉 提交于 2019-12-16 15:03:03
统计术语 TAG: 教育理论 A acceptance region  接受区域 adjusted  校正的 allocation  配置、布局 alternative hypothesis  备择假设 * analysis of variance  方差分析 * analysis of covariance  协方差分析 ANOCOVA  =Analysis of covariance * ANOVA  =Analysis of variance arithmetic mean  算术平均值 association  关联性 * assumed mean  假定平均值 * asymmetric distribution  非对称分布 autoregressive  自回归(的) averages  平均量 B bar chart  条线图 Bartlett\'s test  巴特利特检验 * Bayes, -ian  贝叶斯的、贝叶斯 beta function  贝塔函数 between  (间)内 bias  偏倚 biased question  有偏质问 * binomial distribution  二项分布 binomial theorem  二项定理 bioassay  生物鉴定法 bivariate normal distribution  二元正态分布

python实现抽样分布的验证

会有一股神秘感。 提交于 2019-12-15 23:45:42
CONTENTS 1 卡方分布 2 标准正态分布 3 T分布 4 F分布 5 一般正态分布 1 卡方分布 import numpy as np import pandas as pd import matplotlib . pyplot as plt import scipy import scipy . stats as stats df = pd . read_excel ( '/Users/Downloads/data.xlsx' , usecols = [ 1 , 2 , 3 ] ) plt . figure ( ) plt . subplot2grid ( ( 2 , 2 ) , ( 0 , 0 ) ) df = 20 # 自由度 # print(chi2.ppf(0.01, df)) # 计算函q=0.01概率时数值。其中 q = 1-a # print(chi2.cdf(8.260, df)) # 知道x值求a x = np . linspace ( stats . chi2 . ppf ( 0.01 , df ) , # 绘制概率密度图 stats . chi2 . ppf ( 0.99 , df ) , 100 ) plt . plot ( x , stats . chi2 . pdf ( x , df ) , alpha = 0.6 , label =

python 抽样分布实践

南楼画角 提交于 2019-12-14 23:23:56
本次选取泰坦尼克号的数据,利用python进行抽样分布描述,主要是提供实现代码,具体的理论知识不会过多涉及。 ( 注:是否服从T分布不是进行t检验~ ) 字段说明: Age:年龄,指登船者的年龄。 Fare:价格,指船票价格。 Embark:登船的港口。 需要验证的是: 1、验证数据是否服从正态分布? 2、验证数据是否服从T分布? 3、验证数据是否服从卡方分布? import pandas as pd import numpy as np path = 'D:\\数据\\data\\data.xlsx' data = pd.read_excel(path) # 按照港口分类,计算数据的统计量 embark = data.groupby(['Embarked']) embark_basic = data.groupby(['Embarked']).agg(['count','min','max','median','mean','var','std']) age_basic = embark_basic['Age'] fare_basic = embark_basic['Fare'] age_basic fare_basic # 1、 先验证价格年龄是否服从正态分布。 # 画出年龄的图像 import seaborn as sns sns.set_palette("hls")

抽样分布

浪子不回头ぞ 提交于 2019-12-10 02:24:51
统计量:由样本构造一个函数,且此函数不依赖于任何未知参数,则称该函数为统计量, 常用的统计量有样本均值、样本方差、样本变异系数。 卡方分布:设随机变量X1,X2,…Xn相互独立,且Xi(1,2,…,n)服从标准正态分布N(0,1),则它们的平方和服从自由度为n的卡方分布。 由上图可知,当自由度足够大时,卡方分布的概率密度曲线趋于对称,即卡方分布的极限分布是正态分布。 T分布:设随机变量X~N(0,1),Y符合自由度为n的卡方分布,且X与Y独立,则t=X/sqrt(Y/n)。其分布称为t分布,记为t(n),其中n为自由度。 由上图可知,t分布的密度函数曲线与标准正态分布的密度函数曲线非常相似,只是t分布的方差要大一些,尾部要粗一些。一般,当n大于等于30时,t分布于标准正态分布就非常接近。 F分布:设随机变量Y与Z相互独立,且Y和Z分别服从自由度为m和n的卡方分布,随机变量X有如下表达式:X = nY/mZ,则称X服从第一自由度为m,第二自由度为n的F分布,记为F(m,n)。 如果随机变量X服从t(n)分布,则X^2服从F(1,n)的F分布,这在回归分析的回归系数显著性检验中有用。 参考书籍:贾平凹《统计学 第7版》 来源: CSDN 作者: 小文的数据之旅 链接: https://blog.csdn.net/d345389812/article/details/103459585