置信区间

2019年11月28号 王腾飞 spss

徘徊边缘 提交于 2019-12-06 00:48:00
置信区间 置信区间的前提:数据必须服从正态分布 置信区间:分析——描述性统计——探索——统计——描述性——设置置信区间的置信度——继续——选择变量——确定 均值的95%置信区间的含义:如果我们从一个总体中重复抽取容量为n的样本100个,那么从这100个样本均值置信区间中,至少有95个会包含总体均值 假设思想 假设检验的思想:反证法及小概率原理 假设检验有可能犯两类错误: 第一类错误:原假设正确,而错误的拒绝了他  及拒真的错误 第二类错误:原假设不正确,而错误的没有拒绝他 ,及受伪错误 来源: https://www.cnblogs.com/wangtengfei123/p/11954131.html

11.28spss

人盡茶涼 提交于 2019-12-06 00:46:12
理论分布:指总体所服从的分布,可以有个解析表达式,该表达式,一般是具有特定参数的概率分布函数。 经验分布:是指实际的样本服从分布,观测到的样本数据的,相对频率称为经验分布。 抽样分布:是指样本统计量样本均值样本的方差样本的标准差,所以服从的分布。 置信区间:只样本统计量所构造的总体参数的估计区间。 置信区间 置信区间的前提:数据必须服从正态分布 置信区间:分析——描述性统计——探索——统计——描述性——设置置信区间的置信度——继续——选择变量——确定 均值的95%置信区间的含义:如果我们从一个总体中重复抽取容量为n的样本100个,那么从这100个样本均值置信区间中,至少有95个会包含总体均值 假设思想 假设检验的思想:反证法及小概率原理 假设检验有可能犯两类错误   第一类错误:原假设正确,而错误的拒绝了他  及拒真的错误   第二类错误:原假设不正确,而错误的没有拒绝他 ,及受伪错误 来源: https://www.cnblogs.com/zengtianyu123/p/11954143.html

2019-11-28-spss

被刻印的时光 ゝ 提交于 2019-12-06 00:03:46
置信区间 置信区间的前提:数据必须服从正态分布 置信区间:分析——描述性统计——探索——统计——描述性——设置置信区间的置信度——继续——选择变量——确定 均值的95%置信区间的含义:如果我们从一个总体中重复抽取容量为n的样本100个,那么从这100个样本均值置信区间中,至少有95个会包含总体均值 假设思想 假设检验的思想:反证法及小概率原理 假设检验有可能犯两类错误   第一类错误:原假设正确,而错误的拒绝了他  及拒真的错误   第二类错误:原假设不正确,而错误的没有拒绝他 ,及受伪错误 假设思想俗称“杠精” 来源: https://www.cnblogs.com/zhaojichang/p/11951909.html

统计学基础知识

僤鯓⒐⒋嵵緔 提交于 2019-12-01 17:06:17
为理解下面的知识需要先区分好下面几个概念: 总体均值: \(u\) 总体标准差: \(σ\) 样本均值: \(u'\) 样本标准差: \(σ'\) 样本中符合条件A的占比: \(p'\) 是样本大小: \(n\) 总体大小: \(N\) 抽样 数据分析中,虽然数据越多越齐越好,可是受限于各类因素的制约,我们并不能获取全部的数据。比如Excel的性能限制,比如数据库不支持大文件导出、或者是无法全量进行的用户调研等。 抽样是一种应对方法,通过样本来推断总体,抽样结果提供的仅仅是相应总体特征的估计,「估计」这一点很重要。 抽样有很多方式,样本首要满足随机性。比如进行社会访谈,你不能只选择商场人流区,因为采访到的人群明显是同一类人群,反而会遗漏郊区和乡镇的人群,遗漏宅男,遗漏老人。 互联网产品中,抽样也无处不在,大名鼎鼎的AB测试就是一种抽样,选取一部分人群验证运营策略或者产品改进。通常筛选用户ID末尾的数字,比如末尾选择0~4,于是抽样出了50%的用户,这既能保证随机性,也能保证控制性。 毕竟抽样的目的是验证和检验,需要始终保证用户群体的完全隔离,不能用户一会看到老界面,一会看到改进后的新界面。以上也适用于推荐算法的冠军挑战,用户分群等。 至于放回抽样,分层抽样,在互联网的数据分析中用不太到,这里就略过了。 点估计 设总体 X 的分布函数形式已知, 但它的一个或多个参数为未知,

【强化学习】多臂赌博机问题(MAB)的UCB算法介绍

半城伤御伤魂 提交于 2019-11-27 13:55:50
UCB算法 UCB在做EE(Exploit-Explore)的时候表现不错,但是一个不关心组织的上下文无关(context free)bandit算法,它只管埋头干活,根本不观察一下面对的都是些什么样的arm。 UCB算法要解决的问题是: 面对固定的K个item(广告或推荐物品),我们没有任何先验知识,每一个item的回报情况完全不知道,每一次试验要选择其中一个,如何在这个选择过程中最大化我们的回报? UCB解决这个Multi-armed bandit问题的思路是:用置信区间。置信区间可以简单地理解为不确定性的程度,区间越宽,越不确定,反之亦反之。 每个item的回报均值都有个置信区间,随着试验次数增加,置信区间会变窄(逐渐确定了到底回报丰厚还是可怜)。 每次选择前,都根据已经试验的结果重新估计每个item的均值及置信区间。 选择置信区间上限最大的那个item。 “选择置信区间上界最大的那个item”这句话反映了几个意思: 如果item置信区间很宽(被选次数很少,还不确定),那么它会倾向于被多次选择,这个是算法冒风险的部分; 如果item置信区间很窄(备选次数很多,比较确定其好坏了),那么均值大的倾向于被多次选择,这个是算法保守稳妥的部分; UCB是一种乐观的算法,选择置信区间上界排序,如果时悲观保守的做法,是选择置信区间下界排序。 UCB1算法