统计学分布

《统计学》学习笔记之数据的图表展示

谁说胖子不能爱 提交于 2020-03-17 10:55:19
鄙人学习笔记 文章目录 数据的预处理 品质数据的整理与展示 分类数据的整理与图示 顺序数据的整理与图示 数值型数据的整理与展示 数据的预处理 数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。 数据审核 数据审核 就是检查数据中是否有错误。对于通过调查取得的原始数据,主要从完整性和准确性两个方面去审核。 数据筛选 数据筛选是根据需要找出符合特定条件的某类数据。 数据排序 数据排序是指按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。 品质数据的整理与展示 分类数据的整理与图示 频数 频数 是落在某一特定类别或组中的数据个数。把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来,称为 频数分布 。 列联表 由两个或两个以上变量交叉分类的频数分布表也称为列联表。二维的列联表(两个变量交叉分类)也称为交叉表。 比例和比率 比例也称构成比,它是一个样本(或总体)中各个部分的数据与全部数据之比,通常用于反映样本(或总体)的构成或结构。 比率样本(或总体)中不同类别数据之间的比值,由于比率不是部分与整体之间的对比关系,因而比值可能大于1. 条形图 条形图是用宽度相同的条形的高度或长短来表示数据多少的图形。条形图可以横置或纵置,纵置时也称为柱形图。 条形图: 帕累托图

用R理解统计学

若如初见. 提交于 2020-03-07 06:58:37
1、随机变量( random variable)概念的引入 该数据来自杰克逊实验室。2组数据,每组12只老鼠,一组普通食物,另一组高脂肪(hf)饮食。几周后,科学家们称了每只老鼠的体重,得到了这个数据: dir <- "https://raw.githubusercontent.com/genomicsclass/dagdata/master/inst/extdata/" filename <- "femaleMiceWeights.csv" url <- paste0(dir, filename) dat <- read.csv(url) library(dplyr) control <- filter(dat,Diet=="chow") %>% select(Bodyweight) %>% unlist #其中%>%相当于管道符,fileter相当于Excel中按关键词行筛选,select为列筛选,只保留你提到的变量 treatment <- filter(dat,Diet=="hf") %>% select(Bodyweight) %>% unlist print(mean(treatment)) print(mean(control) ) obsdiff <- mean(treatment) - mean(control) #3.020833 print(obsdiff)

概率统计丨陈希孺《概率论与数理统计》思维导图

走远了吗. 提交于 2020-02-04 00:49:49
除了线性代数,概率论(Probability theory)和统计学(Statistics)也是机器学习中常用的数学工具。陈希孺老先生的《概率论与数理统计》在知乎上的评价很高,我在上学期花时间读了一遍,读完的感觉是,本书的概率论部分可读性较强,举了很多例子帮助理解,通俗易懂,阐明了很多原理和联系,如二项分布、泊松分布、超几何分布、几何分布之间的关系。但数理统计部分,更加严谨的概念定义和公理化相对晦涩,让我不易理解。当然,主要原因还是我水平太低。我觉得本书的数理统计部分可以结合其他材料学习。 此外再推荐一下其他的学习资源。 公开课 可汗学院公开课:统计学 书 《概率导论》 《概率论与数理统计》 《深入浅出统计学》 讲义 CS229概率论讲义 来源: https://www.cnblogs.com/vincent1997/p/12258176.html

统计学:几何分布、二项分布、泊松分布

人走茶凉 提交于 2020-01-25 21:58:15
一、几何分布 假设某种赌博游戏的胜率为 0.2 ,那么意味着你玩第一次就胜出的概率为 0.2 。 那玩第二次才胜出呢?“玩第二次才胜出”就意味着玩 第一次是失败的 ,而直到第二次才胜出,那么这件事发生的概率就是 0.8×0.2=0.16 。 那么第三次、第四次呢? 如果用 p 代表某件事发生的概率,则它不发生的概率为 1-p ,我们将此概率称为 q ,于是可以用下式计算任何具有这一性质的概率: 这个公式叫做概率的 几何分布 。变量 X 表示为了取得第一次成功所需进行的试验次数,为了在第 r 次试验时取得成功,首先要 先失败r-1次 。 几何分布同样适用于不等式。 P(X > r) 指的是为了取得第一次成功需要试验 r 次以上的概率。为了让需要进行的试验次数大于 r ,意味着前 r 次试验必须以失败告终。也就是说,将失败概率乘上 r 次就是所求的概率: 利用这个,可以求出 P(X ≤ r) ,即为了取得一次成功而需要尝试 r 次或 r 次以下的概率: 如果一个变量 X 的概率符合几何分布,且单次试验的成功概率为 p ,则可以写作: 几何分布的期望模式 在数学期望已知的情况下,就可以得出试验在成功之前需要试验的次数的期望值。 假设 X~Geo (0.2) ,那么: 如果将 x P (X=x )的累计总和画成图形: 将 xP (X=x) 的累计总和画成图形后,可以看出,随着 x 的变大

统计学面试经典问题

点点圈 提交于 2020-01-25 02:56:39
1. 叙述你所熟悉的大数定律与中心极限定理,并举例说明它在统计学中的应用。 1) 大数定律 弱大数定律(通常指辛钦大数定律): a) 马尔科夫大数定律: 随机变量满足马尔科夫条件: 1 n 2 D ( ∑ k = 1 n ξ k ) → 0 \frac {1}{n^2} D(\sum^n_{k=1} \xi_k)\rightarrow 0 n 2 1 ​ D ( ∑ k = 1 n ​ ξ k ​ ) → 0 ,则样本均值依概率收敛于期望值。 b) 辛钦大数定律: 随机变量独立同分布,一阶矩存在且等于 a a a ,样本均值 依概率收敛 于期望值 a a a 。 强大数定律(柯尔莫哥洛夫): 随机变量独立同分布,一阶矩存在且等于 a a a ,样本均值 以概率1收敛 于期望值 a a a 。 2) 中心极限定理 Lindeberg-Levy 中心极限定理 (最早的版本是de Moivre – Laplace,指出二项分布的极限为正态分布): 随机变量 X 1 , X 2 , ⋯   , X n X_{1},X_{2},\cdots ,X_{n} X 1 ​ , X 2 ​ , ⋯ , X n ​ 独立同分布, 且具有有限的数学期望和方差 E ( X i ) = μ E(X_{i})=\mu E ( X i ​ ) = μ , D ( X i ) = σ 2 ≠ 0 ( i = 1

基础统计学--复习

戏子无情 提交于 2020-01-24 23:45:52
统计学 简介 统计学是一门独立的学科。 统计学研究的是随机现象,而数学研究的是确定性的规律。 统计学的应用性很强,许多概念和原理来自于实际需要。 数学在统计学中很重要。 什么是统计学? 简单来说, 统计学是一门教会我们如何同数据打交道,从中获取有用信息,并得出结论的学科。 统计学定义; 统计学是用来收集和分析数据的一门学科和艺术。 《大不列颠百科全书》 统计学,具体来说,就是一门关于数据收集、整理、描述和分析的学科。 试验设计是统计学的分支。 几个统计学概念 1.总体、总体容量(总体量) 2.个体 4.样本、样本容量(样本量) 5.变量(研究对象的特征或属性)、变量值 6.随机变量 主要内容 数据的收集与描述 收集 1.文献资料 2.观测 3.试验(自然科学研究,工业,好的试验设计的重要性) 4.问卷调查(社会科学,心理学,市场调研) 5.互联网(爬虫,电商) 6.物联网技术(会员卡,条形码) 数据的描述性分析 这里主要介绍一些基本概念,包括算数平均数,加权平均数,几何平均数,调和平均数,极差,四分位差,平均差,方差,标准差,离散系数,峰度等。还复习了下数据的标准化,及是非标志的平均数和标准差。 统计抽样推断 统计抽样推断主要包括参数估计和假设检验。 参数估计 假设检验(显著性检验) 所谓假设检验就是对一个总体参数或总体分布形式的假设,利用样本资料来检验其真或伪的可能性。

应该要知道的几个统计学定义.

谁说我不能喝 提交于 2020-01-24 23:43:37
//我们先来看一下几个名词基本解释. 1.标准差(Standard deviation) 简单来说,标准差是一组数值自平均值分散程度的一种测量观念.一个较大的标准差,代表大部分的数值和其平均值之间差异较大,一个较小的标准差,代表这些数值较接近平均值. 公式: 例如: 两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是7,但第二个集合具有较小的标准差. 标准差可以当作不确定性的一种测量.例如在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度.当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色.如果测量平均值与预测值相差太远(同时与标准差数值做比较) 则认为测量值与预测值互相矛盾.这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确. 标准差应用于投资上,可作为量度回报稳定性的指标.标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高.相反,标准差数值越小,代表回报较为稳定,风险亦较小. 例如: A,B两组各有6位学生参加同一次语文测验,A组的分数为95,85,75,65,55,45  B组的分数为73,72,71,69,68,67.这两组的平均数都是70,但A组的标准差为17.078分,B组的标准差为2.160分,说明A组学生之间的差距要比B组学生之间的差距大得多. 2.方差.

统计学基础之常用统计量和抽样分布

被刻印的时光 ゝ 提交于 2020-01-24 23:41:44
目录: 一、统计量 1、概念 2、常用统计量 二、抽样分布 1、常见三大抽样分布 一、统计量: 1、概念: 统计量是统计理论中用来对数据进行分析、检验的变量。在实际应用中,当我们从某个总体中抽取一个样本(X1,X2,X3......,Xn)后,并不能直接用它对总体的有关性质和特征进行推断,因为样本虽说是从总体中获取的代表,含有总体性质的信息,但还是会比较分散。当我们需要将统计的推断变成可能的,必须要把分散在样本中的信息集中起来,针对不同的目的,构造不同的样本函数,这种函数在统计学中成为统计量。 统计量是样本的一个函数。有样本构造具体的统计量,实际是对样本所含的总体信息按照一些要求进行加工处理,把分散在样本中的信息集中都统计量的取值上。不同的统计推断问题要求构造不同的统计量。统计量是统计推断的基础,相当于概率论中的随机变量。 在统计量的公式中不能依赖于总体分布的未知参数,如包含E(X),D(X)的都不是统计量。 2、常用统计量:   一般在概率论中,将数学期望和方差等概念用‘矩’的概念描述。当n充分大时,有定理可以保证经验分布函数Fn(x)很靠近总体分布函数F(x)。所以,经验分布函数Fn(x)的各阶矩就反映了总体各阶矩的信息。通常把经验分布函数的各阶矩称为样本各阶矩。常用的样本各阶矩及其函数都是实际应用中的具体统计量。 2.1、样本均值 ,反映出总体X数学期望的信息。 2.2

卡方分布简单的推断

房东的猫 提交于 2020-01-07 18:38:02
先言 本科不好好学习自己的统计学专业,上课研究生后,我留下了悔恨的泪水,最近刚看到三大抽样分布,一头雾水,就在刚刚有那么一点点感觉,那不会的同学可以和我一起顺着我的思路,可能我的思路有缺陷,一定要私信我,一起进步。 正态分布 学习了概率论与数理统计,我们可以轻松的写出正态分布的密度函数与分布函数: 标准正态分布 标准正态分布就是 在这里你要了解一个积分常识: 例如: 所以标准正态分布的密度函数为 伽玛分布的可加性 卡方分布 这系为什么,我们来推一推 因为随机变量x的平方服从 又因为伽玛分布具有可加性,因此n个x的平方相加的密度函数为 到这里我们就知道卡方分布是怎么推到导出来的。 来源: CSDN 作者: 母猪快跑 链接: https://blog.csdn.net/DellvsHuawei/article/details/103874792

2019-12-6[鞠明辰]SPSS统计学课后总结

你。 提交于 2019-12-23 00:53:27
1.由于均值过程只对第一层的自变进行方差分析和线性相关检验,因此两个因素或者两个以上因素的均值分析过程的方差分析结果和单因素一样,不同的是描述性统计最多因素的描述性统计量是对于各个交叉组别进行统计。 2.t检验的适用条件:①样本来自正态总体或近似正态总体,②两个样本总体方差相等,即具有方差齐性(在实际应用时,如与上述条件各有偏离,对结果亦不会有太大影响)。③两组样本应相互独立。 3.单样本T检验即检验某个变量的总体均值和某指定值之间是否存在这显著性差异。如果是大样本的单样本检验,统计教科书上称为U检验,采用服从正态分布的U统计量作为检验统计量。如果是小样本并且服从正态分布则采用服从t分布的统计量进行单样本的T检验;否则,采用非参数检验。T检验稳健性较好,如果样本分布偏离正态分布不太严重,也可采用T检验。1 来源: https://www.cnblogs.com/jumingchen/p/11999719.html