样本均值

什么是中心极限定理?这里有一份可视化解释

橙三吉。 提交于 2020-02-06 18:08:05
作者: Mike Freeman 编译: Bot 编者按:中心极限定理是概率论中的一组重要定理,它的中心思想是无论是什么分布的数据,当我们从中抽取相互独立的随机样本,且采集的样本足够多时,样本均值的分布将收敛于正态分布。为了帮助更多学生理解这个概念,今天,UW iSchool的教师Mike Freeman制作了一些直观的可视化图像,让不少统计学教授大呼要把它们用在课堂上。 本文旨在尽可能直观地解释统计学基础理论之一——中心极限定理的核心概念。通过下文中的一系列动图,读者应该能真正理解这个定理,并从中汲取应用灵感,把它用于决策树等其他项目。 需要注意的是,这里我们不会介绍具体推理过程,所以它不涉及定理解释。 教科书上的中心极限定理 在看可视化前,我们先来回顾一下统计学课程对中心极限定理的描述。 来源:LthID n>30一般为大样本的分界线 来源:LthID 一个简单的例子 为了降低这个定理的理解门槛,首先我们来举个简单的例子。假设有一个包含100人的团体,他们在某些问题上的意见分布在0-100之间。如果以可视化的方式把他们的意见分数表示在水平轴上,我们可以得到下面这幅图:深色竖线表示所有人意见分数的平均值。 假如你是一名社会科学家,你想知道这个团体的立场特点,并用一些信息,比如上面的“平均意见得分”来描述他们。但可惜的是,由于时间、资金有限,你没法一一询问。这时候

sklearn之聚类K均值算法

六眼飞鱼酱① 提交于 2020-01-30 03:34:32
''' 聚类:分类(class)与聚类(cluster)不同,分类是有监督学习模型,聚类属于无监督学习模型。 聚类讲究使用一些算法把样本划分为n个群落。一般情况下,这种算法都需要计算欧氏距离。(用两个样本对应特征值之差的平方和之平方根, 即欧氏距离,来表示这两个样本的相似性) 1.K均值算法: 第一步:随机选择k个样本作为k个聚类的中心,计算每个样本到各个聚类中心的欧氏距离, 将该样本分配到与之距离最近的聚类中心所在的类别中。 第二步:根据第一步所得到的聚类划分,分别计算每个聚类的几何中心,将几何中心作为新的聚类中心, 重复第一步,直到计算所得几何中心与聚类中心重合或接近重合为止。 注意: 聚类数k必须事先已知。借助某些评估指标,优选最好的聚类数。 聚类中心的初始选择会影响到最终聚类划分的结果。初始中心尽量选择距离较远的样本。 K均值算法相关API: import sklearn.cluster as sc # n_clusters: 聚类数 model = sc.KMeans(n_clusters=4) # 不断调整聚类中心,直到最终聚类中心稳定则聚类完成 model.fit(x) # 获取训练结果的聚类中心 centers = model.cluster_centers_ 案例:加载multiple3.txt,基于K均值算法完成样本的聚类。 步骤: 1.读取文件,加载数据

什么是无偏估计?

假装没事ソ 提交于 2020-01-29 10:46:29
无偏估计 所谓总体参数估计量的无偏性指的是 , 基于不同的样本,使用该估计量可算出多个估计值,但它们的平均值等于被估参数的真值。 在某些场合下,无偏性的要求是有实际意义的。例如,假设在某厂商与某销售商之间存在长期的供货关系,则在对产品出厂质量检验方法的选择上,采用随机抽样的方法来估计次品率就很公平。这是因为从长期来看,这种估计方法是无偏的。比如这一次所估计出来的次品率实际上偏高,厂商吃亏了;但下一次的估计很可能偏低,厂商的损失就可以补回来。由于双方的交往会长期多次发生 , 这时采用无偏估计,总的来说可以达到互不吃亏的效果。 不过,在某些场合中,无偏性的要求毫无实际意义。这里又有两种情况:一种情况是在某些场合中不可能发生多次抽样。例如,假设在某厂商和某销售商之间只会发生一次买卖交易,此后不可能再发生第二次商业往来。这时双方谁也吃亏不起,这里就没有什么“平均”可言。另一种情况则是估计误差不可能相互补偿,因此“平均”不得。例如,假设需要通过试验对一个批量的某种型号导弹的系统误差做出估计。这个时候,既使我们的估计的确做到了无偏,但如果这一批导弹的系统误差实际上要么偏左,要么偏右,结果只能是大部分导弹都不能命中目标,不可能存在“偏左”与“偏右”相互抵消,从而“平均命中”的概念。 由此可见,具有无偏性的估计量不一定就是我们“最需要”的“恰当”估计量 在概率论和数量统计中,学习过无偏估计

MATLAB数据统计和分析:参数估计和假设检验

纵饮孤独 提交于 2020-01-27 18:45:24
参数估计和假设检验 统计所研究的对象是受随机因素影响的数据,是以概率论为基础的一门应用学科。统计推断的基础是描述性统计,也就是搜集整理加工分析统计数据,使其系统化和条理化,以显示出数据资料的趋势、特征和数量关系的过程。 掌握 参数估计 和 假设检验 这两个数理统计的最基本方法,方能有效地对数据进行描述和分析。 参数估计 参数估计包括 点估计 和 区间估计 . 1. 点估计 点估计是使用单个数值作为参数的一种估计方式。点估计在抽样推断中 不考虑抽样误差 ,直接以抽样指标代替全体指标。因为个别样本的抽样指标不等于全体指标,因此用抽样指标直接代替全体指标不可避免的会有误差。目前使用较多的点估计方法是最大似然法和矩法。 1. 最大似然法 最大似然法是在待估参数的可能取值范围内,挑选使似然函数值最大的参数值作为最大似然估计量。 最大似然估计法得到的估计量通常不仅仅满足无偏性、有效性等基本条件,还能保证其为充分统计量,因此一般建议在点估计和区间估计中使用最大似然法。 M A T L A B MATLAB M A T L A B 使用函数 m l e mle m l e 进行最大似然估计: phat = mle('dist',data) 使用 d a t a data d a t a 向量中的样本数据,返回 d i s t dist d i s t 指定的分布的最大似然估计。 2. 矩法 矩估计

高等数理统计(五)

有些话、适合烂在心里 提交于 2020-01-24 23:47:04
引言   【比较官方的简介】数理统计学是一门以 概率论为基础 ,应用性很强的学科。它研究怎样以有效的方式收集、 整理和分析带有随机性的数据,以便对所考察的问题作出正确的推断和预测,为采取正确的决策和行动提供依据和建议。数理统计不同于一般的资料统计,它更侧重于应用随机现象本身的规律性进行资料的收集、整理和分析。   【简单的讲】,就是 通过样本分析来推断整体。   【意义或者重要性】在这个大数据时代,数据是非常重要的。怎样挖掘数据内部的规律或者隐含的信息,变得尤为重要。当时我们是不可能获得整体的数据的,所以我们只能通过抽取样本,进而通过样本来推断整体的规律。   【目录】    第一章、样本与统计量      一、引言:      二、总体与样本:      三、统计量:      四、常用分布:    第二章、参数估计     一、引言:      二、点估计—— 矩估计法 :     三、点估计—— 极大似然估计 :     四、估计量的优良性准则     五、区间估计——正态分布        1、引入       2、 单个正态总体参数的区间估计        3、两个正态总体的区间估计     六 、区间估计——非正态分布:       1、大样本正态 近似法       2、二项分布       3、泊松分布    第三章、假设检验     一、引言:     二

SPPS-T检验

安稳与你 提交于 2020-01-23 23:17:23
【推断统计】 1. 样本和总体 总体:目标事件的全体 样本:总体的一部分(总体的子集) 2. 推断统计: 用样本数据对总体进行归纳的统计过程 假定:样本对总体具有代表性 3. 假设检验: 两个假设:原假设+备择假设 原假设:表述为一个处理没有影响--(小概率事件)H0 备择假设:表述为该处理有影响 H1 4. 抽样误差: 样本和总体之间的差别(样本越少,样本和总体之间的差别越大) 5. P值 P值:表示原假设为真时得到特定结果(甚至更极端结果)的确切概率--“显著性” 作用:alpha(α)--0.05(0.01,0.1) 进行比较: 如果p值小于等于0.05(α),则拒绝原假设---“显著性”或者“统计意义上的显著性” 如果p值大于0.05(α),则不拒绝原假设(接受原假设)---“不显著” 一、T检验 单样本T检验、独立样本T检验、配对样本T检验 【单样本T检验】 将样本均值与总体均值或估计的总体均值进行比较 1. 目的:判断样本均值是否与总体均值或估计的总体均值是否有显著区别 2. 所需数据: 样本(来自总体)+ 因变量(连续) 3. 假设条件: a. 观测值独立 b. 总体当中的因变量服从正态分布 4. 原假设和备择假设: 原假设:H0: μ=μ0 备择假设:H1: μ≠μ0 μ表示样本均值,μ0表示总体均值 5. 假设检验: 假定原假设为真的情况下

数据学习(十)-假设检验

北慕城南 提交于 2020-01-06 14:44:54
目录 1.假设检验的基本问题 2.一个总体参数的检验 3. 两个总体参数的检验 1.假设检验的基本问题 假设检验是推断统计的另一项重要内容,它与参数估计类似,但角度不同,参数估计是利用样本信息推断未知的总体参数,而假设检验则是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立。 1.1 假设的陈述 1.对总体参数的具体数值所作的陈述,称为假设,或称为统计假设。 2. 先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程,称为假设检验。 3. 通常将研究者想收集证据予以支持的假设称为备择假设,或称为研究假设,用H1或Ha表示。 4.通常将研究者想收集证据予以反对的假设称为原假设,或称零假设,用H0表示。 备选假设具有特定的方向性,并含有符号“>”或“<”的假设检验,称为单侧检验或单尾检验。 在单侧检验中,由于研究者感兴趣的方向不同,又可以分为左侧检验和右侧检验。如果研究者选择的备选假设的方向是“<”,称为左侧检验反之选择是“>”,称为右侧检验。 备选假设没特定的方向性,并含有符号“!=”的假设检验,称为双侧检验或双尾检验。 1.2 两类错误与显著性水平 当原假设为真时拒绝原假设,所犯的错误称为第一类错误, 又称弃真错误。犯第一类错误的概率通常记为a. 当原假设为假时没有拒绝原假设,所犯的错位称为第二类错误,又称取伪错误。犯第二类错误的概率通常记为b。

深度学习之Batch Normalization

China☆狼群 提交于 2019-12-27 10:11:30
在机器学习领域中,有一个重要的假设:独立同分布假设,也就是假设训练数据和测试数据是满足相同分布的,否则在训练集上学习到的模型在测试集上的表现会比较差。而在深层神经网络的训练中,当中间神经层的前一层参数发生改变时,该层的输入分布也会发生改变,也就是存在内部协变量偏移问题(Internal Covariate Shift),从而造成神经层的梯度消失,模型收敛过慢的问题。 Batch Normalization(BN,批量标准化)就是一种解决内部协变量偏移问题的方法,它通过对神经网络的中间层进行逐层归一化,让每一个中间层输入的分布保持稳定,即保持同一分布。 下面从以下四个方面来深入理解Batch Normalization的原理。 1、内部协变量偏移问题 2、训练时的Batch Normalization 3、推断时的Batch Normalization 4、Batch Normalization的优点 一、内部协变量偏移问题 1、内部协变量偏移问题的产生 在传统机器学习中,一个常见的问题是协变量偏移(Covariate Shift),大致的意思就是数据会随着时间而变化,用旧数据训练好的模型去预测新数据时,结果可能会不准确。输入数据可以看做是协变量,机器学习算法要求输入数据在训练集和测试集上满足同分布,这样把模型用来预测新的数据,才能有较好的结果。 而深层神经网络中的内部协变量偏移

机器学习之降维方法

≯℡__Kan透↙ 提交于 2019-12-26 19:06:05
数据降维的 目的 :数据降维,直观地好处是维度降低了,便于计算和可视化,其更深层次的意义在于有效信息的提取综合及无用信息的摈弃。 数据降维的 好处 :降维可以方便数据可视化+数据分析+数据压缩+数据提取等。 降维方法 __ 属性选择 :过滤法;包装法;嵌入法;       | _ 映射方法 _ 线性映射方法:PCA、LDA、SVD分解等             | _ 非线性映射方法:                       |__核方法:KPCA、KFDA等                       |__二维化:                       |__流形学习:ISOMap、LLE、LPP等。             | __ 其他方法:神经网络和聚类 PCA方法简介   主成分分析的思想,就是线性代数里面的K-L变换,就是在均方误差准则下失真最小的一种变换。是将原空间变换到特征向量空间内,数学表示为Ax=λx。   PCA优缺点:   优点:1)最小误差。2)提取了主要信息   缺点:1)计算协方差矩阵,计算量大 LDA方法简介 (1)LDA核心思想:往线性判别超平面的法向量上投影,使得区分度最大(高内聚,低耦合)。   (2)LDA优缺点:   优点:1)简单易于理解   缺点:2)计算较为复杂 (3)问题 之前我们讨论的PCA、ICA也好,对样本数据来言

MATLAB概率统计函数(4)

白昼怎懂夜的黑 提交于 2019-12-24 12:06:00
4.8 假设检验 4.8.1 已知,单个正态总体的均值μ的假设检验(U检验法) 函数 ztest 格式 h = ztest(x,m,sigma) % x为正态总体的样本,m为均值μ0,sigma为标准差,显著性水平为0.05(默认值) h = ztest(x,m,sigma,alpha) % 显著性水平为 alpha [h,sig,ci,zval] = ztest(x,m,sigma,alpha,tail) %sig为观察值的概率,当sig为小概率时则对原假设提出质疑,ci为真正均值μ的 1- alpha置信区间,zval为统计量的值。 说明 若h=0 ,表示在显著性水平 alpha下,不能拒绝原假设; 若h=1 ,表示在显著性水平 alpha下,可以拒绝原假设。 原假设:, 若tail=0 , 表示备择假设:(默认,双边检验); tail=1,表示备择假设:(单边检验); tail=-1 ,表示备择假设: (单边检验)。 例 4-74 某车间用一台包装机包装葡萄糖,包得的袋装糖重是一个随机变量,它服从正态分布。当机器正常时,其均值为0.5公斤,标准差为0.015。某日开工后检验包装机是否正常,随机地抽取所包装的糖 9 袋,称得净重为(公斤) 0.497, 0.506, 0.518, 0.524, 0.498, 0.511, 0.52, 0.515, 0.512 问机器是否正常?