正态分布

卡方分布简单的推断

房东的猫 提交于 2020-01-07 18:38:02
先言 本科不好好学习自己的统计学专业,上课研究生后,我留下了悔恨的泪水,最近刚看到三大抽样分布,一头雾水,就在刚刚有那么一点点感觉,那不会的同学可以和我一起顺着我的思路,可能我的思路有缺陷,一定要私信我,一起进步。 正态分布 学习了概率论与数理统计,我们可以轻松的写出正态分布的密度函数与分布函数: 标准正态分布 标准正态分布就是 在这里你要了解一个积分常识: 例如: 所以标准正态分布的密度函数为 伽玛分布的可加性 卡方分布 这系为什么,我们来推一推 因为随机变量x的平方服从 又因为伽玛分布具有可加性,因此n个x的平方相加的密度函数为 到这里我们就知道卡方分布是怎么推到导出来的。 来源: CSDN 作者: 母猪快跑 链接: https://blog.csdn.net/DellvsHuawei/article/details/103874792

数据学习(十)-假设检验

北慕城南 提交于 2020-01-06 14:44:54
目录 1.假设检验的基本问题 2.一个总体参数的检验 3. 两个总体参数的检验 1.假设检验的基本问题 假设检验是推断统计的另一项重要内容,它与参数估计类似,但角度不同,参数估计是利用样本信息推断未知的总体参数,而假设检验则是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立。 1.1 假设的陈述 1.对总体参数的具体数值所作的陈述,称为假设,或称为统计假设。 2. 先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程,称为假设检验。 3. 通常将研究者想收集证据予以支持的假设称为备择假设,或称为研究假设,用H1或Ha表示。 4.通常将研究者想收集证据予以反对的假设称为原假设,或称零假设,用H0表示。 备选假设具有特定的方向性,并含有符号“>”或“<”的假设检验,称为单侧检验或单尾检验。 在单侧检验中,由于研究者感兴趣的方向不同,又可以分为左侧检验和右侧检验。如果研究者选择的备选假设的方向是“<”,称为左侧检验反之选择是“>”,称为右侧检验。 备选假设没特定的方向性,并含有符号“!=”的假设检验,称为双侧检验或双尾检验。 1.2 两类错误与显著性水平 当原假设为真时拒绝原假设,所犯的错误称为第一类错误, 又称弃真错误。犯第一类错误的概率通常记为a. 当原假设为假时没有拒绝原假设,所犯的错位称为第二类错误,又称取伪错误。犯第二类错误的概率通常记为b。

从负无穷学习机器学习(三)朴素贝叶斯

别来无恙 提交于 2019-12-28 19:46:20
一、朴素贝叶斯介绍 朴素贝叶斯是一种基于贝叶斯理论的有效监督学习算法,之所以称之为”朴素“,是因为它是基于样本特征之间互相独立的”朴素”假设。 正因如此,不需要考虑样本特征之间的关系,贝叶斯分类器的效率非常高。 朴素贝叶斯有三种方法: 伯努利朴素贝叶斯(Bernoulli Naive Bayes) 高斯贝叶斯(Gaussian Naive Bayes) 多项式贝叶斯(Multinomial Naive Bayes) # 导入numpy import numpy as np # 将X,y赋值为np数组 导入数据 X = np . array ( [ [ 0 , 1 , 0 , 1 ] , [ 1 , 1 , 1 , 0 ] , [ 0 , 1 , 1 , 0 ] , [ 0 , 0 , 0 , 1 ] , [ 0 , 1 , 1 , 0 ] , [ 0 , 1 , 0 , 1 ] , [ 1 , 0 , 0 , 1 ] ] ) y = np . array ( [ 0 , 1 , 1 , 0 , 1 , 0 , 0 ] ) # 对不同分类计算每个特征为1的数量 counts = { } for label in np . unique ( y ) : counts [ label ] = X [ y == label ] . sum ( axis = 0 ) # 打印计数结果

参数估计

核能气质少年 提交于 2019-12-26 11:21:57
中心极限定理是指随着样本容量n的增加,样本的均值抽样分布的形态也随之发生变化,将越来越 接近于正态分布。通常将样本容量n大于30的样本称为大样本,大样本组成的均值抽样分布可以被 认为是服从正态分布的。 参数估计有两种方法:点估计和区间估计,区间估计包含了点估计。二者的相同点都是基于一个样本作出;不同点是点估计只提供 单一 的估计值,而区间估计在点估计的基础上还提供了一个 误差界限 ,给出了取值范围——这个取值范围又叫置信区间(confidence interval),受置信度(一个概率值,即进行估计前必须事先确定的估计的把握度)影响,根据中心极限定理推导得来。 我们可以通过中心极限定理来 倒推 参数估计方法,整个倒推的思路是这样的: 区间估计实际上是抽一个样本,然后用这个样本的统计量来估计总体参数。比如想知道全校同学的每天平均学习时间(参数),就通过随机抽样找了100个同学作为样本,然后用这100个同学的平均学习时间(统计量),比如说2小时,并加减一个误差比如说半小时(关于这个误差的大小怎么定有空再说)来得到一个估计的范围。 但从一个总体可以抽许许多多样本,从全校10000名学生可以抽取到许许多多100位同学的组合,凭啥只相信一次抽样的结果?光凭一次抽样、并且只有100个同学来估计10000个同学到底靠不靠谱? 所以,在最终只用一个样本来估计总体前

图像处理___高斯滤波与高斯噪声

大憨熊 提交于 2019-12-26 09:02:42
噪声 1.噪声表现形式 噪声在图像上常表现为一引起较强视觉效果的孤立像素点或像素块。一般,噪声信号与要研究的对象不相关,它以无用的信息形式出现,扰乱图像的可观测信息。通俗的说就是噪声让图像不清楚。 2.噪声对数字图像的影响 对于数字图像信号,噪声表为或大或小的极值,这些极值通过加减作用于图像像素的真实灰度值上,对图像造成亮、暗点干扰,极大降低了图像质量,影响图像复原、分割、特征提取、图像识别等后继工作的进行。 3.高斯噪声 噪声可以看作随机信号,具有统计学上的特征属性。功率谱密度(功率的频谱分布PDF)即是噪声的特征之一,通过功率谱密度分类噪声。 高斯噪声是指它的概率密度函数服从高斯分布(即正态分布)的一类噪声。如果一个噪声,它的幅度分布服从高斯分布,而它的功率谱密度又是均匀分布的,则称它为高斯白噪声。 高斯白噪声的二阶矩不相关,一阶矩为常数,是指先后信号在时间上的相关性。 概率密度函数PDF:    其中z表示灰度值,μ表示z的平均值或期望值,σ表示z的标准差。标准差的平方σ2称为z的方差。 产生原因:1)图像传感器在拍摄时市场不够明亮、亮度不够均匀;      2)电路各元器件自身噪声和相互影响;     3)图像传感器长期工作,温度过高 4.表现形式 5.图像 高斯滤波器 1.定义 高斯滤波器是一种线性滤波器,能够有效的抑制噪声,平滑图像。其作用原理和均值滤波器类似

图像滤波之高斯滤波介绍

孤街浪徒 提交于 2019-12-26 09:02:30
1 高斯滤波简介   了解高斯滤波之前,我们首先熟悉一下高斯噪声。高斯噪声是指它的 概率密度函数 服从 高斯分布 (即 正态分布 )的一类噪声。如果一个噪声,它的幅度分布服从高斯分布,而它的 功率谱密度 又是均匀分布的,则称它为高斯白噪声。高斯白噪声的二阶矩不相关,一阶矩为 常数 ,是指先后信号在时间上的相关性, 高斯白噪声 包括 热噪声 和 散粒噪声 。   高斯滤波器是一类根据高斯函数的形状来选择权值的线性平滑滤波器。高斯平滑滤波器对于抑制服从正态分布的噪声非常有效。一维零均值高斯函数为:                          g(x)=exp( -x^2/(2 sigma^2)   其中,高斯分布参数Sigma决定了高斯函数的宽度。对于图像处理来说,常用二维零均值离散高斯函数作平滑滤波器,高斯函数的图形:                    2 高斯滤波函数   对于图像来说,高斯滤波器是利用高斯核的一个2维的卷积算子,用于图像模糊化(去除细节和噪声)。   1) 高斯分布   一维高斯分布:          二维高斯分布:      2) 高斯核   理论上,高斯分布在所有定义域上都有非负值,这就需要一个无限大的卷积核。实际上,仅需要取均值周围3倍标准差内的值,以外部份直接去掉即可。 如下图为一个标准差为1.0的整数值高斯核。                

MATLAB概率统计函数(4)

白昼怎懂夜的黑 提交于 2019-12-24 12:06:00
4.8 假设检验 4.8.1 已知,单个正态总体的均值μ的假设检验(U检验法) 函数 ztest 格式 h = ztest(x,m,sigma) % x为正态总体的样本,m为均值μ0,sigma为标准差,显著性水平为0.05(默认值) h = ztest(x,m,sigma,alpha) % 显著性水平为 alpha [h,sig,ci,zval] = ztest(x,m,sigma,alpha,tail) %sig为观察值的概率,当sig为小概率时则对原假设提出质疑,ci为真正均值μ的 1- alpha置信区间,zval为统计量的值。 说明 若h=0 ,表示在显著性水平 alpha下,不能拒绝原假设; 若h=1 ,表示在显著性水平 alpha下,可以拒绝原假设。 原假设:, 若tail=0 , 表示备择假设:(默认,双边检验); tail=1,表示备择假设:(单边检验); tail=-1 ,表示备择假设: (单边检验)。 例 4-74 某车间用一台包装机包装葡萄糖,包得的袋装糖重是一个随机变量,它服从正态分布。当机器正常时,其均值为0.5公斤,标准差为0.015。某日开工后检验包装机是否正常,随机地抽取所包装的糖 9 袋,称得净重为(公斤) 0.497, 0.506, 0.518, 0.524, 0.498, 0.511, 0.52, 0.515, 0.512 问机器是否正常?

统计学第八周:参数统计

你离开我真会死。 提交于 2019-12-22 18:32:19
统计学:参数估计 概念 1.利用总体统计不方便甚至是无法完成的现实状况,采用抽样的方式,利用样本提供的信息来推断总体的特征。 2.点估计:point estimate, 用样本统计量的某个取值直接作为总体参数的估值。 但一个点估计值的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量。 当围绕点估计值构造总体参数的一个区间,这就是区间估计。 3.区间估计:interval estimate ,在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。 根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。 在区间估计中,由样本统计量所构成的总体参数的估计区间称为置信区间,其中区间的最小值称为置信下限,最大值称为置信上限。 置信水平:将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例,称为置信水平 confidence level ,也称为置信度或置信系数。 如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包括总体参数的真值,那么用该方法构造的区间称为置信水平位95%的置信区间。 评价估计量的标准 🔽无偏性:指估计量抽样分布的数学期望等于被估计的总体参数。 设 总 体 参 数 位 θ , 所 选 择 的 估 计 量 为 θ ⃗ , 如 果 E

从线性模型到广义线性模型(1)——模型假设篇

不羁岁月 提交于 2019-12-22 16:08:39
在统计学里,对特定变量之间的关系进行建模、分析最常用的手段之一就是回归分析。回归分析的输出变量通常记做 Y ,也称为因变量(dependent)、响应变量(response)、被解释变量(explained)、被预测变量(predicted)、从属变量(regressand);输入变量通常记做 x 1 ,…, x p ,也称为自变量(independent)、控制变量(control&controlled)、解释变量(explanatory)、预测变量(predictor)、回归量(regressor)。本文根据作者自己的一些学习心得和理解,简单且不严格地介绍在模型假设方面普通线性模型和广义线性模型的区别和联系/推广(generalization)。广义线性模型的拟合检验、推断、诊断等方面的方法和手段依赖于模型所采用的分布类型,难以一概而论,将在作者后续的学习心得文章里具体介绍。 1.普通线性模型的简单回顾 普通线性模型(ordinary linear model)可以用下式表示: Y = β 0 + β 1 x 1 + β 2 x 2 + … + β p − 1 x p − 1 + ϵ (1.1) 这里 β i , i = 1 ,…, p − 1 称为未知参数, β 0 称为截矩项。 普通线性模型的假设主要有以下几点: 1.响应变量 Y 和误差项 ϵ 正态性:响应变量 Y

创建直方图和密度图

一笑奈何 提交于 2019-12-18 13:31:44
前面我们已经学会了如何创建几种不同类型的图。散点图和折线图是对数据集中观测 值直接作图,柱状图和饼状图通常用于对不同类别的数据进行粗略总结。 上述这几种图形有以下两方面的局限性:散点图和折线图表达的信息过多,以至于很 难刻画出重点特征;饼状图和柱状图则丢弃过多信息,因此也难以做出可信判断。 直方图能够展示数值向量的分布特征,并且能够在不丢失太多信息的情况下做出总结, 因此更方便使用。下面的例子将演示如何使用 hist( )生成一个服从正态分布的随机数值 向量的直方图,然后添加正态分布的密度函数曲线,如图 7-23 所示。 random_normal <- rnorm(10000) hist(random_normal) 默认情况下,直方图的 y 轴是数据出现的频数。我们可以验证,这个直方图与由 random_normal 生成的随机向量所代表的标准正态分布非常接近。为了在图上叠加标准 正态分布的概率密度函数曲线 dnorm( ),需要确保直方图的 y 轴表示的是概率,并且曲 线是叠加到该直方图上面的,如图 7-24 所示。 hist(random_normal, probability = TRUE, col = "lightgray") curve(dnorm, add = TRUE, lwd = 2, col = "blue") 图 7-23 图 7-24 现在