参数检验

MATLAB数据统计和分析:参数估计和假设检验

纵饮孤独 提交于 2020-01-27 18:45:24
参数估计和假设检验 统计所研究的对象是受随机因素影响的数据,是以概率论为基础的一门应用学科。统计推断的基础是描述性统计,也就是搜集整理加工分析统计数据,使其系统化和条理化,以显示出数据资料的趋势、特征和数量关系的过程。 掌握 参数估计 和 假设检验 这两个数理统计的最基本方法,方能有效地对数据进行描述和分析。 参数估计 参数估计包括 点估计 和 区间估计 . 1. 点估计 点估计是使用单个数值作为参数的一种估计方式。点估计在抽样推断中 不考虑抽样误差 ,直接以抽样指标代替全体指标。因为个别样本的抽样指标不等于全体指标,因此用抽样指标直接代替全体指标不可避免的会有误差。目前使用较多的点估计方法是最大似然法和矩法。 1. 最大似然法 最大似然法是在待估参数的可能取值范围内,挑选使似然函数值最大的参数值作为最大似然估计量。 最大似然估计法得到的估计量通常不仅仅满足无偏性、有效性等基本条件,还能保证其为充分统计量,因此一般建议在点估计和区间估计中使用最大似然法。 M A T L A B MATLAB M A T L A B 使用函数 m l e mle m l e 进行最大似然估计: phat = mle('dist',data) 使用 d a t a data d a t a 向量中的样本数据,返回 d i s t dist d i s t 指定的分布的最大似然估计。 2. 矩法 矩估计

逻辑回归模型

不打扰是莪最后的温柔 提交于 2019-12-30 12:02:19
逻辑回归模型 - zgw21cn - 博客园 逻辑回归模型 1. 逻辑 回 归 模型 1.1逻辑回归模型 考虑具有p个独立变量的向量 ,设条件概率 为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为 (1.1) 上式右侧形式的函数称为称为逻辑函数。下图给出其函数图象形式。 其中 。如果含有名义变量,则将其变为dummy变量。一个具有k个取值的名义变量,将变为k-1个dummy变量。这样,有 (1.2) 定义不发生事件的条件概率为 (1.3) 那么,事件发生与事件不发生的概率之比为 (1.4) 这个比值称为事件的发生比(the odds of experiencing an event),简称为odds。因为0<p<1,故odds>0。对odds取对数,即得到线性函数, (1.5) 1.2极大似然函数 假设有n个观测样本,观测值分别为 设 为给定条件下得到 的概率。在同样条件下得到 的条件概率为 。于是,得到一个观测值的概率为 (1.6) 因为各项观测独立,所以它们的联合分布可以表示为各边际分布的乘积。 (1.7) 上式称为n个观测的似然函数。我们的目标是能够求出使这一似然函数的值最大的参数估计。于是,最大似然估计的关键就是求出参数 ,使上式取得最大值。 对上述函数求对数 (1.8) 上式称为对数似然函数。为了估计能使 取得最大的参数 的值。 对此函数求导,得到p+1个似然方程

假设检验

安稳与你 提交于 2019-12-28 13:13:58
(1)参数估计 和 假设检验 是统计推断的两个组成部分,它们都是利用 样本 对 总体 进行某种推断,但推断的角度不同。 参数估计 讨论的是用 样本统计量 估计 总体参数 的方法,总体参数μ在估计前是未知的。 而在 假设检验 中,则是先对总体参数μ的值提出一个假设,然后利用 样本信息 去检索这个假设是否成立。 (2)原假设 和 备择假设 的关系? 原假设H0(又称“ 零假设 ”) & 备择假设H1(又称“ 替换假设 ”) 原假设与备择假设互斥,肯定原假设,意味着放弃备择假设;否定原假设,意味着接受备择假设。 (3) 两类错误--( α错误 & β错误 ) α错误【弃真错误】:原假设为真,却被拒绝 β错误【取伪错误】:原假设为伪,却被接受 在假设检验中,如何对两类错误进行控制,准则有哪些? 一般来说,哪一类错误所带来的后果越严重,危害越大,在假设检验中就应该把哪一类错误作为首要控制目标。 首先控制犯 α错误 原则。 原因有两点: 1. 大家都遵循一个统一的原则,讨论问题就比较方便 2. 从实用的观点看,原假设是什么常常是明确的,而备择假设是什么则常常是模糊的(最主要的原因) 对于一个含义清楚的假设和一个含义模糊的假设,人们是更愿意接受前者,正是这样的背景下,人们就更为关心如果原假设H0为真,而人们却把它拒绝了,犯这种错误的可能性有多大。而这正是 α错误 所表现的内容 。 (3)

关于jitter()函数

﹥>﹥吖頭↗ 提交于 2019-12-06 06:38:16
http://f.dataguru.cn/thread-12107-1-1.html https://www.cnblogs.com/wangshenwen/p/3235870.html 噪声函数 jitter(x, factor=1, amount = NULL) 可以防止数据重复,在ks.test()检验的时候可以消除误差,在大量数据的散点图中可以避免散点重叠。jitter(x, k)中x是原数据,k与浮动范围有关。 jitter(x, factor=1, amount = NULL)函数的参数变化有点复杂,自己试验了下,最简单的可以用 jitter(x, factor=0, amount = k) , 其中k是非负实数,k=0时就等于x, 这时 等价于x + runif(length(x), -k, k) 。factor=1, amount = NULL等情况还没搞明白,请知道的补充哈,谢谢! 我用jitter(t),也不会出“Kolmogorov - Smirnov检验里不应该有连结”这样的警告了。 来源: https://www.cnblogs.com/HISAK/p/11965857.html

R 分析回归(一元回归)

天大地大妈咪最大 提交于 2019-12-05 18:21:19
x <- c(18,23,25,35,65,54,34,56,72,19) # build X(predictor) y <- c(202,168,180,156,169,174,172,153,199,193) # build Y(dependent variable) mode(x) # view the type of x plot(x,y) # plot the graph model <- lm(y ~ x) # build the linear model abline(model) # add the line in graph 数据是自己编的,所以图有点假。 summary(model) 上图为各种参数,还有各种检验。 如果想要输出建好的模型的方程的话,可以以下面的方式,当然还可以用predict()函数 pridict <- model$coefficients[1] + model$coefficients[1]*100 # we can pridict 100 in model through this way print(pridict) # print result 来源: https://www.cnblogs.com/zijidefengge/p/11939428.html

Jarque-Bera test|pp图|K-S检验|

橙三吉。 提交于 2019-12-03 05:04:22
Jarque-Bera test: 如何绘制 pp 图 ? 找该直线的截距和斜率,通过截距和斜率的值找到正态参数均值和方差,可对这些正态参数进行正态检验。 K-S 检验的的特点? 并不是只针对正态分布,是针对某一分布。在大样本时针对正态分布。 来源: https://www.cnblogs.com/yuanjingnan/p/11779152.html

统计学基础知识

僤鯓⒐⒋嵵緔 提交于 2019-12-01 17:06:17
为理解下面的知识需要先区分好下面几个概念: 总体均值: \(u\) 总体标准差: \(σ\) 样本均值: \(u'\) 样本标准差: \(σ'\) 样本中符合条件A的占比: \(p'\) 是样本大小: \(n\) 总体大小: \(N\) 抽样 数据分析中,虽然数据越多越齐越好,可是受限于各类因素的制约,我们并不能获取全部的数据。比如Excel的性能限制,比如数据库不支持大文件导出、或者是无法全量进行的用户调研等。 抽样是一种应对方法,通过样本来推断总体,抽样结果提供的仅仅是相应总体特征的估计,「估计」这一点很重要。 抽样有很多方式,样本首要满足随机性。比如进行社会访谈,你不能只选择商场人流区,因为采访到的人群明显是同一类人群,反而会遗漏郊区和乡镇的人群,遗漏宅男,遗漏老人。 互联网产品中,抽样也无处不在,大名鼎鼎的AB测试就是一种抽样,选取一部分人群验证运营策略或者产品改进。通常筛选用户ID末尾的数字,比如末尾选择0~4,于是抽样出了50%的用户,这既能保证随机性,也能保证控制性。 毕竟抽样的目的是验证和检验,需要始终保证用户群体的完全隔离,不能用户一会看到老界面,一会看到改进后的新界面。以上也适用于推荐算法的冠军挑战,用户分群等。 至于放回抽样,分层抽样,在互联网的数据分析中用不太到,这里就略过了。 点估计 设总体 X 的分布函数形式已知, 但它的一个或多个参数为未知,

9、神经网络的学习

孤者浪人 提交于 2019-12-01 12:44:53
九、神经网络的学习(Neural Networks: Learning) 9.1 代价函数 参考视频: 9 - 1 - Cost Function (7 min).mkv 首先引入一些便于稍后讨论的新标记方法: 假设神经网络的训练样本有 m个,每个包含一组输入 x 和一组输出信号 y , L 表示神经网络层数 S I 表示每层的neuron个数( S l 表示输出层神经元个数), S L 代表最后一层中处理单元的个数。 将神经网络的分类定义为两种情况:二类分类和多类分类, 二类分类: S L = 0 , y = 0 o r S L =1,y=1各表示一类; K 类分类:S L = k , y i = 1 SL=k,yi=1表示分到第 i 类; ( k > 2 ) 我们回顾逻辑回归问题中我们的代价函数为: 在逻辑回归中,我们只有一个输出变量,又称标量(scalar),也只有一个因变量 y ,但是在神经网络中,我们可以有很多输出变量,我们的 hθ(x)是一个维度为 K 的向量,并且我们训练集中的因变量也是同样维度的一个向量 ,因此我们的代价函数会比逻辑回归更加复杂一些,为: h θ ( x ) ∈ R K ,( h θ (x)) i = i t h output 这个看起来复杂很多的代价函数背后的思想还是一样的,我们希望通过代价函数来观察算法预测的结果与真实情况的误差有多大

R语言Wald检验 vs 似然比检验

回眸只為那壹抹淺笑 提交于 2019-11-29 06:35:58
在开展基于可能性推理的课程时,关键主题之一是基于似然函数的测试和置信区间构建。通常包括Wald,似然比和分数测试。在这篇文章中,我将修改Wald和似然比测试的优缺点。我将重点关注置信区间而不是测试 。 示例 我们将X表示观察到的成功次数的随机变量,x表示其实现的值。似然函数只是二项式概率函数,但参数是模型参数。 所以MLE只是观察到的比例。 Wald置信区间 如果我们使用将参数空间(在我们的示例中为区间(0,1))映射到整个实线的变换,那么我们保证在原始比例上获得仅包括允许参数值的置信区间。 对于概率参数绘制的n = 10,x = 1的二项式示例的对数似然函数 从视觉上我们可以看出,对数似然函数 在绘制时 实际上不是二次方。下图显示了相同的对数似然函数,但现在x轴是对数几率: 二项式的对数似然函数n = 10 x = 1示例,相对于对数几率。 似然比置信区间 似然比95%置信区间定义为(或模型参数为)的那些值总之,虽然似然比方法具有明显的统计优势,但计算上Wald区间/测试更容易。在实践中,如果样本量不是太小,并且Wald间隔是以适当的比例构建的,它们通常是合理的(因此它们在统计软件包中使用)。然而,在小样本中,似然比方法可能是优选的。 此外,当似然比方法仍然(通常)合理时,Wald方法完全失败的情况是在测试参数是否位于其参数空间的边界时。出现这种情况的情况包括随机效应模型

R 分析回归(一元回归)

China☆狼群 提交于 2019-11-29 03:57:09
x <- c(18,23,25,35,65,54,34,56,72,19) # build X(predictor) y <- c(202,168,180,156,169,174,172,153,199,193) # build Y(dependent variable) mode(x) # view the type of x plot(x,y) # plot the graph model <- lm(y ~ x) # build the linear model abline(model) # add the line in graph 数据是自己编的,所以图有点假。 summary(model) 上图为各种参数,还有各种检验。 如果想要输出建好的模型的方程的话,可以以下面的方式,当然还可以用predict()函数 pridict <- model$coefficients[1] + model$coefficients[1]*100 # we can pridict 100 in model through this way print(pridict) # print result 来源: https://www.cnblogs.com/zijidefengge/p/11939428.html