假设检验

t分布, 卡方x分布,F分布

非 Y 不嫁゛ 提交于 2020-03-12 02:32:01
T分布:温良宽厚 本文由“医学统计分析精粹”小编“Hiu”原创完成,文章采用知识共享Attribution-NonCommercial-NoDerivatives 4.0国际许可协议(http://creativecommons.org/licenses/by-nc-nd/4.0/)进行许可,转载署名需附带本号二维码,不可用于商业用途,不允许任何修改,任何谬误建议,请直接反馈给原作者,谢谢合作! 命名与源起 “t”,是伟大的Fisher为之取的名字。Fisher最早将这一分布命名为“Student's distribution”,并以“t”为之标记。 Student,则是William Sealy Gosset(戈塞特)的笔名。他当年在爱尔兰都柏林的一家酒厂工作,设计了一种后来被称为t检验的方法来评价酒的质量。因为行业机密,酒厂不允许他的工作内容外泄,所以当他后来将其发表到至今仍十分著名的一本杂志《Biometrika》时,就署了student的笔名。所以现在很多人知道student,知道t,却不知道Gosset。(相对而言,我们常说的正态分布,在国外更多的被称为高斯分布……高斯~泉下有知的话,说不定会打出V字手势~欧耶!) 看懂概率密度图 这一点对于初学者尤为重要,相信还是有不少人对正态分布或者t分布的曲线没有确切的理解。 首先,我们看一下频率分布直方图,histogram:

《女士品茶》与统计检验

无人久伴 提交于 2020-02-04 04:11:58
在2008年参加国家统计局举办的建模大赛期间,书店书架上的《女士品茶(The Lady Tasting Tea)――20世纪统计怎样变革了科学》引起了我们的关注,《女士品茶》书名一改以往统计类书籍的枯燥和灰暗,新意盎然。匆匆翻过后,便买下了。《女士品茶》并不是一本女性读物,也不是一本专门讲茶的读物,而是一本20世纪统计发展史的科普读物,留心一下本书的副标题就可以知道这一点。为什么作者取了这么个名字?其巧妙的构思令人赞叹,原来“女士品茶”是一个统计发展史上非常有名的统计实验,而且是由大名鼎鼎的费歇尔(Fisher)主持的。《女士品茶》全书以“女士品茶”这一个早期的统计学实验开始,详细地叙述了一个多世纪以来统计学的诞生和发展的历史,通过一些有趣的统计故事,在一个个精彩的人物中将统计学各个领域的思想向读者进行了简明扼要的介绍。但是让这本书成为经典的不是其中的学术分析,而是其视野的独特和广阔。   译者邱东先生定位的首选读者是:统计专业的学生、研究生、教师和科研工作者。其次是对科学发展文化传承感兴趣的各界读者,定位层次何以如此悬殊?似乎在于作者和译者各自的生活环境不同,正如作者所说:“统计的观点应用如此广泛,以至于基本的假设已经成为西方世界通俗文化的一部分,就如同一尊泥菩萨一样立在那里,洋洋得意。”所以这本书归类“科普读物”。    一、关于“女士品茶”的统计实验   20世纪20年代后期

假设检验是单侧还是双侧

人盡茶涼 提交于 2020-01-28 02:16:01
H 0 : a = a 0 , H 1 : a ≠ a 0 H_0: a = a_0, H_1:a \neq a_0 H 0 ​ : a = a 0 ​ , H 1 ​ : a  ​ = a 0 ​ H 0 : a ≥ a 0 , H 1 : a < a 0 H_0: a \ge a_0, H_1:a < a_0 H 0 ​ : a ≥ a 0 ​ , H 1 ​ : a < a 0 ​ a = a 0 ⇒ a > a 0 a = a_0 \Rightarrow a > a_0 a = a 0 ​ ⇒ a > a 0 ​ & a < a 0 a < a_0 a < a 0 ​ ,故双侧 具体选择哪种检验,应根据专业知识及问题的要求(分析的目的)在试验设计时就确认 双侧检验:一般若事先不知道所比较的两个处理效果谁好谁坏,分析的目的在于推断两个处理效果有无差别 单侧检验:若根据理论知识或实践经验判断甲处理的效果不会比乙处理的效果差/好,分析的目的在于判断甲处理比乙处理好/差 一般情况下,如不做特殊说明均指双侧检验 来源: CSDN 作者: allen sue 链接: https://blog.csdn.net/fish2009122/article/details/104094565

python假设检验实战,是否服从正态分布,异常数据,相关性

我与影子孤独终老i 提交于 2020-01-27 01:49:55
1.要解决的问题 给出的数据集为人体的体温数据,下载链接为 https://pan.baidu.com/s/1t4SKF6U2yyjT365FaE692A* 包括三个数据字段: gender:性别,1为男性,2为女性 Temperature:体温 HeartRate:心率 要解决的问题如下: 人体体温的总体均值是否为98.6华氏度? 人体的温度是否服从正态分布? 人体体温中存在的异常数据是哪些? 男女体温是否存在明显差异? 体温与心率间的相关性(强?弱?中等?) 首先导入数据集: import pandas as pd import numpy as np import matplotlib . pyplot as plt import seaborn as sns from scipy import stats data = pd . read_csv ( 'test.csv' ) temp = data [ 'Temperature' ] gender = data [ 'Gender' ] heartRate = data [ 'HeartRate' ] 查看该数据集的各项数据 data . describe ( ) 输出: Temperature Gender HeartRate count 130.000000 130.000000 130.000000 mean 98

A/B测试实例

我与影子孤独终老i 提交于 2020-01-25 11:18:28
今天听课听到这样一个结论:如果假设检验的样本量很大,那么显著性水平α应该设得小一点。 为什么呢?我没想通,于是去网上试图查找答案。结果发现网上很多人还在纠结:如果假设检验的样本量很大,那么会使假设检验的结果非常容易产生显著性。这是不是真的?样本量太大是不是不好? 我:??? 很久之前我就知道这种说法没有道理,但是我从来没有仔细去研究过这个问题。这次在知乎和stackexchange上搜罗了一下大家的回答,发现很多老师包括很多书上的说法都是错误的,在这里有必要澄清和记录一下。 首先,有些人之所以认为大样本会使假设检验结果更容易产生显著性,理由如下: 投铜板,投的次数越多,某个统计检验量的值出现的可能性越小。(图片摘自: https://www.zhihu.com/question/53199900?sort=created ) 反对者说:这正说明了大样本的好处呀。如果样本量小,那么很可能假设检验的结果是由于偶然的原因导致的。样本量越大,我们越可以肯定假设检验的结果是准确的。 还有一种理由是这样的,以t检验为例,根据t值的计算公式: ,如果样本量n越大,标准误差就越小,这样t值就越大,也就可以推出p值越小,这不就说明样本量越大,结果越容易显著吗? 反对者说:如果效应量不变,那么这种说法是正确的。但是,在其他部分(α,1-β)不变的情况下,n越大,效应量越小,因此t值并不会因此变大。

SPSS-回归

你离开我真会死。 提交于 2020-01-25 11:17:46
1、一元回归 一元线性回归分析、多元线性回归分析 【一元线性回归分析】 已经某变量取值,如果想要用它得到另一个变量的预测值 自变量或预测变量、因变量或标准变量 1. 目的:根据某自变量取值得到因变量的预测值 2. 所需数据: 因变量(连续变量)+自变量(连续变量、二分变量) 3. 假设条件: a. 观测值独立 b. 两个变量服从正态分布:总体中每一变量的取值都要服从正态分布,而且对某一变量的任意取值,另一变量的取值也应服从正态分布 c. 方差齐性:因变量的总体方差与自变量的方差相同的 4. 方程: Y=a+bX Y表示因变量的预测值(不是真实值),a表示的y轴的截距,b表示回归方程的斜率,X表示自变量的取值 5. 假设检验: 在原假设为真(b=0)的情况下,如果检验的结果不可能(p值小于等于0.05),则拒绝原假设,即回归系数不等于0; 如果检验的结果有可能(p值大于0.05),则接受原假设,即回归系数为0 练习: 这是一家超市连续3年的销售数据,包括月份,季度,广告费用,客流量,销售额5个变量,共36条记录,这里根据广告费用来预测销售额,当广告费用为20万时,销售额大概为多少。 数据:超市销售数据.sav。 6. 具体步骤: a. 导入数据 b. 分析数据:分析--回归--线性回归 c. 解释输出结果: 描述统计:给出常见统计量 相关性:两个变量的相关系数,当前的相关系数是0

SPPS-T检验

安稳与你 提交于 2020-01-23 23:17:23
【推断统计】 1. 样本和总体 总体:目标事件的全体 样本:总体的一部分(总体的子集) 2. 推断统计: 用样本数据对总体进行归纳的统计过程 假定:样本对总体具有代表性 3. 假设检验: 两个假设:原假设+备择假设 原假设:表述为一个处理没有影响--(小概率事件)H0 备择假设:表述为该处理有影响 H1 4. 抽样误差: 样本和总体之间的差别(样本越少,样本和总体之间的差别越大) 5. P值 P值:表示原假设为真时得到特定结果(甚至更极端结果)的确切概率--“显著性” 作用:alpha(α)--0.05(0.01,0.1) 进行比较: 如果p值小于等于0.05(α),则拒绝原假设---“显著性”或者“统计意义上的显著性” 如果p值大于0.05(α),则不拒绝原假设(接受原假设)---“不显著” 一、T检验 单样本T检验、独立样本T检验、配对样本T检验 【单样本T检验】 将样本均值与总体均值或估计的总体均值进行比较 1. 目的:判断样本均值是否与总体均值或估计的总体均值是否有显著区别 2. 所需数据: 样本(来自总体)+ 因变量(连续) 3. 假设条件: a. 观测值独立 b. 总体当中的因变量服从正态分布 4. 原假设和备择假设: 原假设:H0: μ=μ0 备择假设:H1: μ≠μ0 μ表示样本均值,μ0表示总体均值 5. 假设检验: 假定原假设为真的情况下

python实现-假设检验

别说谁变了你拦得住时间么 提交于 2020-01-19 17:44:09
假设检验 人体温度是否符合正态分布 import pandas as pd import numpy as np import os from scipy import stats data = pd.read_csv('/Users/huangqiankun/Downloads/test.csv') data.Temperature.describe() ks_test = stats.kstest(data['Temperature'], 'norm') print('ks_test', ks_test) ks_test KstestResult(statistic=1.0, pvalue=0.0) 人体体温的总体均值是否为98.6华氏度 mean = data.Temperature.mean() print(mean) 98.24923076923076 来源: CSDN 作者: yxjwhhhh 链接: https://blog.csdn.net/yxjwhhhh/article/details/104041125

假设检验

我们两清 提交于 2020-01-15 04:38:20
基本概念:原假设,准备择假设,两类错误,显着性水平,p值(容易糊涂),单侧检验,双侧检验 假设检验的分类:参数的检验分为一个总体参数和两个总体参数的检验 一个总体参数的假设检验:总体均值的检验,总体比例的检验,总体方差的检验 两个总体参数的假设检验:两个总体均值之差的检验,两个总体比例之差的检验,两一个总体方差比的检验 假设 对总体参数的具体数值估算的陈述 备择假设 通常指研究者想收集证据初步支持的假设 原假设 通常指研究者想收集证据反对反对的假设 两类错误 1,当原假设为真时拒绝原假设,所犯的错误称为第Ⅰ类错误,又称弃真错误 2,当原假设为假时没有拒绝原假设,所犯的错误称为第Ⅱ类错误,又称取伪错误 显着性水平 假设检验中犯第Ⅰ类错误的概率,称为显着性水平 P值 在原假设为真的条件下,检验统计量的观察值大于或等于其计算值的概率,称为P值,也称为观察到的显着性水平 P值是反映实际观察到的数据与原假设Ho P值越小,说明实际观察到的数据与Ho之间相邻的程度 就在于,检验的结果也就越显着着。 单侧检验 我们关心的假设问题带有方向性,有两种情况:(初始检测)一种是我们所检查的数值模拟越好,如灯泡插入;(正确检测)另一种是数值越小越好,如废品率 双侧检验 一个总体参数的假设检验 步骤1提出原假设和备择假设 步骤2指定检验中的显着性水平 步骤3手机样本数据并计算检验统计量的值 p-值法

统计学第十周打卡:假设检验

孤街醉人 提交于 2020-01-11 02:33:43
整体思路:先对整体统计量做一个猜想,然后用样本统计量进行验证猜想是否准确。 假设检验中可能出现的概率问题 假设检验的流程: 1、首先提出原假设和备选假设; H0和H1 2、确定合适的统计量,并进行计算。其中计算假设量,就类似于计算一个分数,分数确定概率大小; 3、最终进行判断,看概率是落入拒绝域还是允许域。其中P值是我们用来做决策的重要指标,一般情况下没有说明显著性水平情况下,P小于0.05即可认为原假设成立,在说明显著性水平情况下,P值需小于显著性水平才可认为原假设成立。 单侧检验 单侧检验分左侧检验和右侧检验。左侧检验又称下限检测(比如灯泡寿命不得小于1K小时),右侧检验又称上线检测(比如产品的次品率不得低于0.05)。 一个总体参数的确定 由于假设检验的统计量和统计条件不同,用的的统计量主要有三个:Z统计、T统计量(用于均值和比例的检验)、和卡方统计量(用于方差的检验) 考虑因素:样本量n的大小(样本量大的情况下(即可用Z统计量进行计算):总体正态-样本正态,总体非正态-样本渐进正态),总体标准差(不知道的情况下可以用样本量方差S代替)是否已知 总体归纳如下: 两个总体参数的检验 总体方法和参数估计差不多,就是看哪个参数存在哪个不存在,然后选择不同方法,基础中的基础还是抽样分布的知识,理解清楚几个抽样分布量的计算条件和计算方法,即可推算出检验统计量的数值。 来源: CSDN