统计学分布

统计学第八周:参数统计

你离开我真会死。 提交于 2019-12-22 18:32:19
统计学:参数估计 概念 1.利用总体统计不方便甚至是无法完成的现实状况,采用抽样的方式,利用样本提供的信息来推断总体的特征。 2.点估计:point estimate, 用样本统计量的某个取值直接作为总体参数的估值。 但一个点估计值的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量。 当围绕点估计值构造总体参数的一个区间,这就是区间估计。 3.区间估计:interval estimate ,在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。 根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。 在区间估计中,由样本统计量所构成的总体参数的估计区间称为置信区间,其中区间的最小值称为置信下限,最大值称为置信上限。 置信水平:将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例,称为置信水平 confidence level ,也称为置信度或置信系数。 如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包括总体参数的真值,那么用该方法构造的区间称为置信水平位95%的置信区间。 评价估计量的标准 🔽无偏性:指估计量抽样分布的数学期望等于被估计的总体参数。 设 总 体 参 数 位 θ , 所 选 择 的 估 计 量 为 θ ⃗ , 如 果 E

数据不正态分布如何办?

感情迁移 提交于 2019-12-04 05:42:45
在实际研究中,很多时候都需要数据满足正态分布才可以。比如说回归分析,其实做回归分析有一个前提条件即因变量需要满足正态分布性。也比如说方差分析,其有一个潜在的前提假定即因变量 Y 需要满足正态分布。还有很多种情况,比如 T 检验,相关分析等等。 但这种情况往往被分析人员忽略掉,或者是数学基本不够扎实,也或者无论如何数据均不满足正态分布等客观条件,也或者其它情况等。如果说没有满足前提条件,分析的结果会变得不科学严谨,分析结论会受到置疑。 哪些研究方法需要数据满足正态分布才行呢?以及如果不满足正态分布时应该如何处理呢?接下来会逐步说明。 第一:需要满足正态分布的几类常见研究方法: 常见会涉及五种研究方法,它们对正态性要求相对较高,如果不满足正态性则会有对应的处理。 线性回归分析 线性回归分析,很多时候也称回归分析。其对正态性的要求较为严格,包括因变量 Y 需要满足正态性要求,同时残差也需要满足正态性。如果说因变量 Y 不满足正态分布,通常情况下有以下几种处理办法。 第 1 :对因变量 Y 取对数处理(包括自然对数和 10 为底的对数);这可以在 SPSSAU 的生成变量功能里面找到; 第 2 :如果数据接近于正态分布,则接受其为正态分布性。此种情况较多,因为在研究影响关系时,线性回归最适合,如果不进行线性回归,通常情况下很难有更适合的研究方法。因而很多时候只要数据接受于正态性即可

数理统计要点

*爱你&永不变心* 提交于 2019-12-03 07:48:03
虽然我也粗读过统计学的几本书,但从易懂性来说,都没有学校老师给的ppt好,或者说自己看书比较困难,但是听老师讲课就很容易懂。所以,我建议有条件的同学能够选修统计学这门课,没条件的同学可以去网上找一些相关视频,配套书籍可以选择茆诗松的《概率论与数理统计》。另外,《Head First Statistics》一书可以用来预热。 学了统计学,你至少应该知道: 基本的抽样方法 数据分布的描述统计量有哪些?一组样本数据分布的数值特诊可以从三个方面进行描述: 描述水平的统计量: 数据的水平:也称为集中趋势或位置度量,反应全部数据的数值大小。 均值、中位数、分位数、众数 描述差异的统计量 数据的差异:反应数据间的离散程度。 极差和四分位差、方差和标准差、变异系数、标准分数 描述分布形状的统计量 分布的形状:反应数据分布的偏度和峰度。 偏度系数、峰度系数 你需要了解一些重要的分布,比如正态分布、chi-square分布、t分布、F分布等。 假设检验是用来做什么的、置信区间的概念、MSE (Mean Squared Error)均方误差、RMSE(Root Mean Squard Error)均方根误差、MAE(平均绝对误差)、R-squared(拟合优度)的含义等等。 怎样进行数据预处理 怎样整理和显示数据 你需要了解各种图的作用和适用场景,常用图包括条形图、饼图、直方图、折线图、箱线图、散点图

python3-正态分布

匿名 (未验证) 提交于 2019-12-02 22:11:45
loc 平均值 scale (scale) 标准差 pdf(x, loc=0, scale=1) 正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。 正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。 若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。 from scipy.stats import norm import numpy as np import matplotlib.pyplot as plt dmean=0.5 dstd=1 x=np.arange(-5,5,0.01) y=norm.pdf(x,dmean,dstd) plt.plot(x,y) plt.xlabel('x') plt.ylabel('y') plt.show()

统计学上数据的处理和图标的展示原则

泪湿孤枕 提交于 2019-12-02 12:18:36
1.数据的预处理: 是在对数据分类或者分组之前所做的必要处理 内容包括 数据的审核 筛选 排序 1.1 数据审核: 检查数据中是否有错误 主要从完整性和准确性去审核 考虑数据的适用性和时效性 完整性:是否有遗漏 填写是否齐全 准确性:是否有错误 和 异常值[看异常值是否正确] 1.2 数据筛选: 找出符合特定条件的某类数据[使用Excel] 1.3 数据排序 :按照一定顺序将数据进行排列 以便于发现明显的特征或者趋势 有助于对数据的纠错 重新归类或分组提供方便 1.4 数据透视表: 借助Excel来生产数据透视表 进行分类汇总和作图 形成一个符合需要的交叉表(列联表) 列联表[两个或两个以上变量交叉分布的频数分布表] 二维列联表---->交叉表 2.品质数据的整理与展示: 预处理后的数据,根据需要进一步做分类和分组 2.1 分类数据的整理与图示: 需要计算出每一类别的频数/频率、比例/比率 形成一张频数分布表 再根据需要进行展示 以便于对数据的特征有初步的了解 2.1.1 频数与频数分布: 频数是指落在某一特定类别或组中的数据个数 把各个类别及其落在其中相应频数 用表格的形式表现出来----->频数分布 2.1.2 分类数据的图示: 用图形来表示会更加的形象和直观 ----> 条形图[长短直观表现]、 帕累托图[分类数据排序后频数的分布]、 饼图[研究结构性问题的分布

Crush Course 统计学笔记

不问归期 提交于 2019-12-02 11:56:42
Crush Course 统计学 Ref : 十分钟速成课:统计学 1 - 什么是统计学 女士品茶:1920年左右剑桥英式下午茶时间一位女士认为牛奶先加或后加将影响茶的口感,因此将八杯茶打乱以区分口感,但为区分胡猜和舌头灵的界限,Fisher提出实验设计法使统计学严谨起来。 统计学领域:收集和分析数据的实践活动 统计学:数据的总合(summaries) 代理变量(Proxy):与所求结果相关但并非其自身 描述(Descriptive)统计学:研究数据中心位置(集中趋势的度量 即数据分布特征的度量)。压缩总结大量非直观数据以得出有用信息 推断(Inferential)统计:超出当前数据的推断,如简单抽样。不同问题有不同评判标准,亦有不同实验方法,具有 不确定性 ,是否信服取决于主观意见 2 -- 数理思维 数理思维以不同的方式观察世界,进行超越本能和直觉的思考 科学计数法便于表示大数,但不利于大数理解: 方式一:由小及大,从1想象到1,000,000,000 方式二:带入语境,均分到每个人 方式三:转换单位成熟悉的度量方式 方式四:找参照物,以物体替代,比如一百万人能装下几个足球场 大数定律:群体或样本足够大时,小概率事件完全可能发生 应用:7.6亿人则罕见疾病便会出现,或出现连续两期彩票号码相同 极小数概率:不以物喜不以己悲,在不必要事情上节约时间,如中大乐透最终大奖概率3

小小知识点(四十)统计学中的矩

南笙酒味 提交于 2019-11-30 19:09:57
转自豆瓣: https://www.douban.com/note/686004725/ 在概率论、统计学甚至计量经济学中常会看到“矩”这个字,那什么是“矩”? 物理意义: 数学中矩的概念来自物理学。 在物理学中,矩是表示距离和物理量乘积的物理量,表征物体的空间分布。 由其定义,矩通常需要一个参考点(基点或参考系)来定义距离。如力和参考点距离乘积得到的力矩(或扭矩),原则上任何物理量和距离相乘都会产生力矩,质量,电荷分布等。 常见的概念——力矩,虽然我们高中没学。 数学意义: 矩是物体形状识别的重要参数指标。 在统计学中,矩表征随机量的分布 。 一阶矩,期望,表位置;二阶矩,方差,表胖瘦;三阶矩,偏度,表歪斜;四阶矩,峰度,表尾巴胖瘦 。 转自知乎: https://www.zhihu.com/question/23236070/answer/143316942 “因为我们常常会将随机变量(先假定有任意阶矩)作一个线性变换,把一阶矩(期望)归零,二阶矩(方差)归一,以便统一研究一些问题。这时候,在同样期望为0方差为1的标准情况下(以下均假设随机变量满足该条件),随机变量最重要的指标就变成了接下来的两个矩了。 三阶矩 ,就是我们所称的「偏度」。粗略来说,一个典型的 正偏度变量X 的分布满足这样的特征:很大的概率X会取绝对值较小的负值,但在极少数情况下,X会取特别大的正值。可以理解为

统计学第七版学习笔记

三世轮回 提交于 2019-11-29 04:25:25
一、导论 统计应用领域:企业发展战略、产品质量管理、市场研究、财务分析、经济预测、人力资源管理。 统计数据的分类:按计量尺度:分类数据、顺序数据、数值型数据(★)         按收集方法:观测数据、实验数据         按时间状况:截面数据、时间序列数据 二、数据的搜集 数据来源:调查或实验 调查方法分类:概率抽样:简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样        非概率抽样:方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样 搜集数据的基本方法:自填式、面访式、电话式、观察式 数据的误差:抽样误差       非抽样误差:抽样框误差、回答误差、无回答误差、调查员误差、测量误差 三、数据的图标展示 数据的预处理:数据审核、筛选、排序 品质数据包括分类数据和顺序数据,做分类整理   分类数据:计算频数与频数分布,或比例、比率等。图示有条形图、帕累托图、饼图、环形图   顺序数据:累积频数与累积频率。图示分类图示+累积频数分布或频率图 数值型数据做分组整理,有单变量值分组和组距分组两种,组距分组包括等距分组和不等距分组   图示:分组数据——直方图、未分组数据——茎叶图和箱线图、时间序列数据——线图、多变量数据——(散点图、气泡图、雷达图) 四、数据的概括性度量 数据分布特征:集中趋势的度量:分类数据——众数,顺序数据——中位数、四分位数,数值型数据—

几大分布函数

余生颓废 提交于 2019-11-27 19:29:55
目录 1、0-1分布(两点分布、伯努利分布) 2、几何分布 3、二项分布 4、高斯分布(正态分布) 5、卡方分布 (chi-square distribution) 6、t分布 单个二值型离散随机变量的分布,概率分布函数: 2、几何分布 离散型概率分布,定义为:n次伯努利试验中,试验k次才能得到一次成功的机率。即前k-1次皆失败,第k次成功的概率。 概率分布函数: 3、二项分布 n次伯努利试验,各次试验之间相互独立,每次试验只有两种可能(抛硬币),相互对立。设事件发生的概率是P,不发生的概率是1-P,n次重复独立试验中发生K次的概率: 4、高斯分布(正态分布) 随机变量X服从数学期望为μ,方差为σ2的正态分布,记为N(μ,σ2)。 μ决定正态分布的位置。 标准差决定正态分布的幅度。 性质: 标准正态分布:μ=0,σ=1。 性质: Φ(x)=1-Φ(-x) 5、卡方分布 (chi-square distribution) 若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从 标准正态分布 N(0,1) (也称独立同分布于标准 正态分布 ),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。 随机变量 : 记为: 其中参数 称为 自由度 ,自由度不同就是另一个 分布。

统计学基础之常用统计量和抽样分布

一笑奈何 提交于 2019-11-27 18:41:06
目录: 一、统计量 1、概念 2、常用统计量 二、抽样分布 1、常见三大抽样分布 一、统计量: 1、概念: 统计量是统计理论中用来对数据进行分析、检验的变量。在实际应用中,当我们从某个总体中抽取一个样本(X1,X2,X3......,Xn)后,并不能直接用它对总体的有关性质和特征进行推断,因为样本虽说是从总体中获取的代表,含有总体性质的信息,但还是会比较分散。当我们需要将统计的推断变成可能的,必须要把分散在样本中的信息集中起来,针对不同的目的,构造不同的样本函数,这种函数在统计学中成为统计量。 统计量是样本的一个函数。有样本构造具体的统计量,实际是对样本所含的总体信息按照一些要求进行加工处理,把分散在样本中的信息集中都统计量的取值上。不同的统计推断问题要求构造不同的统计量。统计量是统计推断的基础,相当于概率论中的随机变量。 在统计量的公式中不能依赖于总体分布的未知参数,如包含E(X),D(X)的都不是统计量。 2、常用统计量:   一般在概率论中,将数学期望和方差等概念用‘矩’的概念描述。当n充分大时,有定理可以保证经验分布函数Fn(x)很靠近总体分布函数F(x)。所以,经验分布函数Fn(x)的各阶矩就反映了总体各阶矩的信息。通常把经验分布函数的各阶矩称为样本各阶矩。常用的样本各阶矩及其函数都是实际应用中的具体统计量。 2.1、样本均值 ,反映出总体X数学期望的信息。 2.2