样本均值的抽样分布

统计1:概述

て烟熏妆下的殇ゞ 提交于 2020-03-07 06:57:13
概率论是人们在长期实践中发现的理论,是客观存在的。自然界和社会上发生的现象是多种多样的,有一类现象,在一定条件下必然发生,称作确定性现象,而概率论研究的现象是不确定性现象,嗯嗯,醒醒,概率论研究的对象是 随机现象 。那什么是随机现象呢?在个别试验中呈现出不确定性,而在大量重复实验中呈现出固有规律性的现象,称作随机现象,在大量重复实验中所呈现的固有规律,是统计规律性,也就是概率。 一,概率和频率 在提到概率之前,不得不说频率。对于一个随机事件来说,在一次试验中可能发生,也可能不发生,那么,如何表征事件在一次试验中发生的可能性大小呢?为了解答这个问题,引入了频率。频率描述了事件发生的频繁程度,频率越大,事件发生的越频繁,这意味着事件在一次试验中发生的可能性越大。我们定义,概率表征事件在一次试验中发生的可能性大小,因此,可从频率引出概率。 大数定理和中心极限定理是概率论的基本理论。大数定理论证了频率具有稳定性,中心极限定理表明了正态分布是普遍适用的。 概率是事件的固有规律,必须是稳定的一个数值,频率具有稳定性吗?在长期实践中,当试验次数不断增大时,事件发生的频率稳定在一个值附近,这一客观事实证明频率具有稳定性。 伯努利大数定理 用数学公式证明了频率的稳定性,因此,在实际应用中,当试验次数很大时,可以用事件的频率来代替事件的概率,用于表征事件发生的可能性大小。

随机采样方法整理与讲解(MCMC、Gibbs Sampling等)

拟墨画扇 提交于 2020-02-11 20:02:39
http://www.tuicool.com/articles/fqEf6f 本文是对参考资料中多篇关于sampling的内容进行总结+搬运,方便以后自己翻阅。其实参考资料中的资料写的比我好,大家可以看一下!好东西多分享!PRML的第11章也是sampling,有时间后面写到PRML的笔记中去:) 背景 随机模拟也可以叫做蒙特卡罗模拟(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时的几个大牛,包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候,开始使用统计模拟的方法,并在最早的计算机上进行编程实现。[3] 随机模拟中有一个重要的问题就是给定一个概率分布 p ( x ) ,我们如何在计算机中生成它的样本。一般而言均匀分布 U n i f o r m ( 0 , 1 ) 的样本是相对容易生成的。 通过线性同余发生器可以生成伪随机数,我们用确定性算法生成 [ 0 , 1 ] 之间的伪随机数序列后,这些序列的各种统计指标和均匀分布 U n i f o r m ( 0 , 1 ) 的理论计算结果非常接近。这样的伪随机序列就有比较好的统计性质,可以被当成真实的随机数使用。 下面总结这么几点: 1、蒙特卡洛数值积分 2、均匀分布

什么是无偏估计?

假装没事ソ 提交于 2020-01-29 10:46:29
无偏估计 所谓总体参数估计量的无偏性指的是 , 基于不同的样本,使用该估计量可算出多个估计值,但它们的平均值等于被估参数的真值。 在某些场合下,无偏性的要求是有实际意义的。例如,假设在某厂商与某销售商之间存在长期的供货关系,则在对产品出厂质量检验方法的选择上,采用随机抽样的方法来估计次品率就很公平。这是因为从长期来看,这种估计方法是无偏的。比如这一次所估计出来的次品率实际上偏高,厂商吃亏了;但下一次的估计很可能偏低,厂商的损失就可以补回来。由于双方的交往会长期多次发生 , 这时采用无偏估计,总的来说可以达到互不吃亏的效果。 不过,在某些场合中,无偏性的要求毫无实际意义。这里又有两种情况:一种情况是在某些场合中不可能发生多次抽样。例如,假设在某厂商和某销售商之间只会发生一次买卖交易,此后不可能再发生第二次商业往来。这时双方谁也吃亏不起,这里就没有什么“平均”可言。另一种情况则是估计误差不可能相互补偿,因此“平均”不得。例如,假设需要通过试验对一个批量的某种型号导弹的系统误差做出估计。这个时候,既使我们的估计的确做到了无偏,但如果这一批导弹的系统误差实际上要么偏左,要么偏右,结果只能是大部分导弹都不能命中目标,不可能存在“偏左”与“偏右”相互抵消,从而“平均命中”的概念。 由此可见,具有无偏性的估计量不一定就是我们“最需要”的“恰当”估计量 在概率论和数量统计中,学习过无偏估计

参数估计

蓝咒 提交于 2019-12-23 02:37:41
CONTENTS 点估计 矩估计 区间估计 样本量的确定 点估计 点估计是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。点估计和区间估计属于总体参数估计问题。何为总体参数统计,当在研究中从样本获得一组数据后,如何通过这组信息,对总体特征进行估计,也就是如何从局部结果推论总体的情况,称为总体参数估计。 矩估计 矩估计,即矩估计法,也称“矩法估计”,就是利用样本矩来估计总体中相应的参数。首先推导涉及感兴趣的参数的总体矩(即所考虑的随机变量的幂的期望值)的方程。然后取出一个样本并从这个样本估计总体矩。接着使用样本矩取代(未知的)总体矩,解出感兴趣的参数。从而得到那些参数的估计。 区间估计 区间估计是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。与点估计不同,进行区间估计时,根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。下面将以总体均值的区间估计为例来说明区间估计的基本原理。 样本量的确定 一、估计总体均值时样本容量的确定 1.重复抽样 一旦确定了置信水平(1-α),Zα/2的值就确定了,对于给定的的值和总体标准差σ,就可以确定任一希望的允许误差所需要的样本容量。令E代表所希望达到的允许误差,即: 由此可以推到出确定样本容量的公式如下: 2.不重复抽样

统计词汇

人走茶凉 提交于 2019-12-16 15:03:03
统计术语 TAG: 教育理论 A acceptance region  接受区域 adjusted  校正的 allocation  配置、布局 alternative hypothesis  备择假设 * analysis of variance  方差分析 * analysis of covariance  协方差分析 ANOCOVA  =Analysis of covariance * ANOVA  =Analysis of variance arithmetic mean  算术平均值 association  关联性 * assumed mean  假定平均值 * asymmetric distribution  非对称分布 autoregressive  自回归(的) averages  平均量 B bar chart  条线图 Bartlett\'s test  巴特利特检验 * Bayes, -ian  贝叶斯的、贝叶斯 beta function  贝塔函数 between  (间)内 bias  偏倚 biased question  有偏质问 * binomial distribution  二项分布 binomial theorem  二项定理 bioassay  生物鉴定法 bivariate normal distribution  二元正态分布

L2->统计与分布(上)

时光总嘲笑我的痴心妄想 提交于 2019-11-30 19:35:14
一、加和值、平均值和标准差 1.指标:用单一的数据定义来概括性描述一些抽象或复杂数据的方式方法都叫做“ 指标 ”。 2.上述几个值都是在生产生活中大量应用的统计学指标。 3.只能做描述用,既不是对比的标尺,也不是用来具体做规则定制用的硬性尺度,更不能用来孤立的评价“好坏”。 二、加权均值 1. 权,即“权重”,指所占的“比重”或“重要程度”。 2. 决策权衡:在决策中做加权平均的目的是为了让整个决策既融合众多参与方、利益方的意见,同时也尽量使它向着更权威、更理性、更科学的方面倾斜,这是它的核心指导思想。 3. 经济管理学领域的“德尔菲法则”。 三、众数,中位数 1. 众数反映的是一个多数的概念,即一个数字比其他的数字的出现得多,或者更普遍。若没有任何一个数值比其他对象多,这种情况下不存在众数。 2. 中位数描述样本的分布,在一定程度上可以消除个别极端值对整体样本平均值的影响。 四、欧氏距离 1.在一个N维度的空间里,求两个点的距离,这个距离肯定是一个大于等于0的数字,那么这个距离需要用两个点在各自维度上的坐标相减,平方后再加和再开平方。 五、曼哈顿距离(出租车距离) 1.用来标明两个点在标准坐标系上的绝对轴距总和。 六、同比和环比 1. 同比: 与相邻时段的同一时期相比 2. 环比: 直接和上一个报告期进行比较 3.在一个周期结束的时候,通常要对这个周期的工作内容进行总结

第五周:统计量与抽样分布

无人久伴 提交于 2019-11-27 19:38:02
统计量 统计量是统计理论中用来对数据进行分析、检验的变量。 宏观量 是大量 微观量 的统计 平均值 ,具有统计平均的意义,对于单个微观粒子,宏观量是没有意义的. 相对于微观量的统计平均性质的宏观量也叫统计量。需要指出的是,描写宏观世界的 物理量 例如速度、动能等实际上也可以说是宏观量,但宏观量并不都具有统计平均的性质,因而宏观量并不都是统计量。 样本均值 样本均值(sample mean)又叫 样本均数 。即为样本的均值。 均值是表示一组数据 集中趋势 的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。 样本均值则是在总体中的样本数据的均值。 样本: 样本(sample),是指从 总体 中抽出的一部分 个体 。样本中所包含个体数目称 样本容量 或含量,用符号N或n表示。 均值: 均值是表示一组数据 集中趋势 的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。 解答平均数应用题的关键在于确定“总数量”以及和总数量对应的总份数。在统计工作中,平均数( 均值 )和标准差是描述数据资料集中趋势和离散程度的两个最重要的测度值。 设 是来自正态总体 的样本, 是样本均值,则有 : 样本方差 先求出 总体 各单位变量值与其 算术平均数 的 离差 的平方,然后再对此变量取 平均数 ,就叫做 样本方差 。