统计学

应该要知道的几个统计学定义.

谁说我不能喝 提交于 2020-01-24 23:43:37
//我们先来看一下几个名词基本解释. 1.标准差(Standard deviation) 简单来说,标准差是一组数值自平均值分散程度的一种测量观念.一个较大的标准差,代表大部分的数值和其平均值之间差异较大,一个较小的标准差,代表这些数值较接近平均值. 公式: 例如: 两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是7,但第二个集合具有较小的标准差. 标准差可以当作不确定性的一种测量.例如在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度.当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色.如果测量平均值与预测值相差太远(同时与标准差数值做比较) 则认为测量值与预测值互相矛盾.这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确. 标准差应用于投资上,可作为量度回报稳定性的指标.标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高.相反,标准差数值越小,代表回报较为稳定,风险亦较小. 例如: A,B两组各有6位学生参加同一次语文测验,A组的分数为95,85,75,65,55,45  B组的分数为73,72,71,69,68,67.这两组的平均数都是70,但A组的标准差为17.078分,B组的标准差为2.160分,说明A组学生之间的差距要比B组学生之间的差距大得多. 2.方差.

【概率论与数理统计】小结6 - 大数定理与中心极限定理

可紊 提交于 2020-01-24 23:42:44
注 :这两个定理可以说是概率论中最重要的两个定理。也是由于中心极限定理的存在,使得正态分布从其他众多分布中脱颖而出,成为应用最为广泛的分布。这两个定理在概率论的历史上非常重要,因此对于它们的研究也横跨了几个世纪(始于18世纪初),众多耳熟能详的大数学家都对这两个定理有自己的贡献。因此,这两个定理都不是单一的定理。不同的大数定理和中心极限定理从不同的方面对相同的问题进行了阐述,它们条件各不相同,得到的结论的强弱程度也不一样。 1. 大数定理(law of large numbers,LLN) 图1-1,伯努利(1655-1705) 大数定律可以说是整个数理统计学的一块基石,最早的大数定律由伯努利在他的著作《推测术》中提出并给出了证明。这本书出版于伯努利去世后的1713年。数理统计学中包含两类重要的问题——对概率p的检验与估计。大数定律的本质是一类极限定理,它是由概率的统计定义“频率收敛于概率”引申而来的。简单来说就是n个独立同分布的随机变量的观察值的均值$\bar{X}$依概率收敛于这些随机变量所属分布的理论均值,也就是总体均值。 举一个古典概率模型的例子:拿一个盒子,里面装有大小、质地一样的球a+b个,其中白球a个,黑球b个。这时随机地从盒子中抽出一球(意指各球有同等可能被抽出),则“抽出的球为白球”这一事件A的概率p=a/(a+b).但是如果不知道a、b的比值,则p也不知道

统计学基础之常用统计量和抽样分布

被刻印的时光 ゝ 提交于 2020-01-24 23:41:44
目录: 一、统计量 1、概念 2、常用统计量 二、抽样分布 1、常见三大抽样分布 一、统计量: 1、概念: 统计量是统计理论中用来对数据进行分析、检验的变量。在实际应用中,当我们从某个总体中抽取一个样本(X1,X2,X3......,Xn)后,并不能直接用它对总体的有关性质和特征进行推断,因为样本虽说是从总体中获取的代表,含有总体性质的信息,但还是会比较分散。当我们需要将统计的推断变成可能的,必须要把分散在样本中的信息集中起来,针对不同的目的,构造不同的样本函数,这种函数在统计学中成为统计量。 统计量是样本的一个函数。有样本构造具体的统计量,实际是对样本所含的总体信息按照一些要求进行加工处理,把分散在样本中的信息集中都统计量的取值上。不同的统计推断问题要求构造不同的统计量。统计量是统计推断的基础,相当于概率论中的随机变量。 在统计量的公式中不能依赖于总体分布的未知参数,如包含E(X),D(X)的都不是统计量。 2、常用统计量:   一般在概率论中,将数学期望和方差等概念用‘矩’的概念描述。当n充分大时,有定理可以保证经验分布函数Fn(x)很靠近总体分布函数F(x)。所以,经验分布函数Fn(x)的各阶矩就反映了总体各阶矩的信息。通常把经验分布函数的各阶矩称为样本各阶矩。常用的样本各阶矩及其函数都是实际应用中的具体统计量。 2.1、样本均值 ,反映出总体X数学期望的信息。 2.2

机器学习中的降维

China☆狼群 提交于 2020-01-24 15:06:58
1. 啥是降维? 摘自维基百科 在机器学习和统计学领域,降维是指在某些限定条件下,降低随机变量个数,得到一组“不相关”主变量的过程。 降维可进一步细分为变量选择和特征提取两大方法。 简单来说,如果你的数据集是由下面几个成分组成: 1.降雨量 2.湿度 3.房屋价格 4.健康指数 我们显然可以判断,前两个数据具有明显的 相关性 ,意思就是, 我们的原始数据就有比较大的 冗余 , 这对我们进行模型训练是无作用的,因此我们可以通过降维达到: 1. 平均湿度 2. 房屋价格 3. 健康指数 这就是一个改进版的训练集,一般都会在数据预处理阶段对数据先降个维。 2. 降维的方法是啥? 特征选择 : 这里不是特征提取,而是特征提取之后, 再从提取的特征之中筛选几个 1.过滤式选择 1.1 方差选择(低方差特征过滤, 删除低方差的特征项) from sklearn. feature_selection import VarianceThreshold def featur_Select(): data = pd.read_csv("feature.csv") #data =data.iloc[:,1:-2] print("\n") transfer = VarianceThreshold(threshold = 阈值) result = transfer.fit_transform(data)

大数据统计学基础

喜你入骨 提交于 2020-01-23 01:52:11
介绍 统计学的分类 数据集中趋势的表现 数据离散程度的描述 各种数据图(直方图、箱线图、茎叶图、线图、柱状图、饼图) 统计学可以分为:描述统计学与推断统计学 描述统计学:使用特定的数字或图表来体现数据的集中程度和离散程度。 推断统计学:根据样本数据推断总体数据特征。 应用:统计学的应用十分广泛,目前比较热门的应用:经济学,医学,心理学等。 集中趋势 均值——算术平均数,描述平均水平 中位数——将数据按大小排列后位于正中间的数描述,描述中等水平 众数——数据中出现最多的数,描述一般水平 离散程度的描述 极差:最大值-最小值,简单的描述数据的范围大小 方差: ,描述数据的离散程度 例如: 简化方差: 标准差: 与方差一样,标准差的值越大,表示数据越分散。 直方图 使用直方图的原因:数据过于复杂,无法直观表示。 找出最大值与最小值,确定数据的范围 整理数据,分组(选取数据的范围),并记录所分的组中,含有数据的多少(频数)构成表格(频数分布表) 依据频数分布表画出直方图(频数为纵轴、分组为横轴) 箱线图 对数据进行排序 找出中位数 找出上四分位数与下四分位数(注意:下四分位数:Q1,将所有数据按照从小到大的顺序排序排在第25%位置的数字;上四分位数:Q3,将所有数据按照从小到大的顺序排序排在第75%位置的数字) 判断异常点(异常点:小于Q1-1.5IQR或大于Q3+1.5IQR的值)

机器学习task06_朴素贝叶斯

旧街凉风 提交于 2020-01-21 12:30:32
贝叶斯决策论(Bayesian decision theory) 是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。 具体来说,若我们决策的目标是最小化分类错误率,贝叶斯最优分类器要对每个样本 x,选择能使后验概率 P( c | x )最大的类别 c 标记。在现实任务中后验概率通常难以直接获得。从这个角度来说,机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率 P( c | x )。大体来说,主要有两种策略:给定x,可通过直接建模P( c | x )来预测c,这样得到的是“判别式模型”,例如,决策树、BP神经网络、支持向量机等等;也可先对联合概率分布P( x,c )建模,然后在由此获得P( c | x ),这样得到的是“生成式模型” 朴素贝叶斯分类器 基于贝叶斯公式来估计后验概率P( c | x )的主要困难在于:类条件概率P( x | c )是所有属性上的联合概率,难以从有限的训练样本直接估计而得。因此朴素贝叶斯分类器采用了“属性条件独立性假设”:对已知类别,假设所有属性相互独立。也就是说,假设每个属性独立的对分类结果发生影响。 sklearn接口 from sklearn.naive_bayes import GaussianNB from sklearn

统计学-Week12

我的梦境 提交于 2020-01-21 05:34:00
一、回归分析 1.1 主题 一元线性回归: 相关关系、最小二乘法、拟合优度检测、显著性检验、回归预测、残差分析 多元线性回归: 多重共线性、变量选择与逐步回归 二、 一元线性回归 1.1 相关关系 三、 多元线性回归 来源: CSDN 作者: kwunkau 链接: https://blog.csdn.net/qq_35906568/article/details/104035201

区别 |相关分析vs回归分析

空扰寡人 提交于 2020-01-20 21:51:32
函数关系 两个变量x和y,当变量x取某个值,y依赖于x确定的关系取相应的确切地值,则称y是x的函数,记为y =f(x)。其中x为自变量,y为因变量。 如:某商品销售与销量的关系y=px 相关关系 当一个或几个关联变量取一定值,与之对应的另一变量的值虽不确定,但仍按照某种规律在一定范围内变化。现象之间存在客观的不严格的数量依存关系。 (1)、变量间的关系不能用函数精确表达 (2)、当变量x取某数值时,变量y取值在一定范围内可能有好几个。 如:商品的销量(y)与物价的关系(x),居民消费(y)与收入的关系(x),粮食亩产(y)与温度(x1)水分(x2)光照(x3)的关系 相关关系的种类 (1)、按照相关形式可分为:线性相关、非线性相关; (2)、按照相关方向可分类:正相关、负相关; (3)、按照相关关系程度可分为:完全相关、不完全相关、不相关。 相关关系的定量判断   关系表   关系图   相关系数 :r>0正相关,r<0负相关,0<|r|<1存在线性关系,|r|=1完全线性相关,r=0 不存在线性相关(但有可能存在其他类型关系) 回归分析 1、相关分析:找出一个指标来表明现象之间相互依存关系的紧密程度。广义的相关分析包括“相关性分析”和“回归分析”。 2、回归分析:   (1)对具有相关关系的现象,拟合出一个合适的数学模型(即回归方程)来近似地表达变量之间平均关系的统计方法。   

从机器学习谈起

前提是你 提交于 2020-01-20 10:56:09
本文原地址 https://www.cnblogs.com/subconscious/p/4107357.html 拜读原文之后,无比喜欢,怕以后找不到,所以转载,大家喜欢可以去看原文,真的很精彩。 从机器学习谈起   在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。   在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢?   我并不直接回答这个问题前。相反,我想请大家看两张图,下图是图一: 图1 机器学习界的执牛耳者与互联网界的大鳄的联姻     这幅图上上的三人是当今机器学习界的执牛耳者。中间的是Geoffrey Hinton, 加拿大多伦多大学的教授,如今被聘为“Google大脑”的负责人。右边的是Yann LeCun, 纽约大学教授,如今是Facebook人工智能实验室的主任。而左边的大家都很熟悉,Andrew Ng,中文名吴恩达,斯坦福大学副教授,如今也是“百度大脑”的负责人与百度首席科学家。这三位都是目前业界炙手可热的大牛,被互联网界大鳄求贤若渴的聘请,足见他们的重要性。而他们的研究方向

贝叶斯决策理论(1)

自闭症网瘾萝莉.ら 提交于 2020-01-19 06:13:12
  数据来自于一个不完全清楚的过程。以投掷硬币为例,严格意义上讲,我们无法预测任意一次投硬币的结果是正面还是反面,只能谈论正面或反面出现的概率。在投掷过程中有大量会影响结果的不可观测的变量,比如投掷的姿势、力度、方向,甚至风速和地面的材质都会影响结果。也许这些变量实际上是可以观测的,但我们对这些变量对结果的影响缺乏必要的认知,所以退而求其次,把投掷硬币作为一个随机过程来建模,并用概率理论对其进行分析。      概率有时也被解释为频率或可信度,但是在日常生活中,人们讨论的概率经常包含着主观的因素,并不总是能等同于频率或可信度。比如有人分析中国足球队打进下次世界杯的概率是10%,并不是说出现的频率是10%,因为下次比赛还没有开始。我们实际上是说这个结果出现的可能性,由于是主观的,因此不同的人将给出不同的概率。   在数学上,概率研究的是随机现象背后的客观规律。我们对随机没有兴趣,感兴趣的是通过大量随机试验总结出的数学模型。当某个试验可以在完全相同的条件下不断重复时,对于任意事件E(试验的可能结果的集合,事件是集合,不是动作),结果在出现在E中的次数占比趋近于某个常量,这个常数极限是事件E的概率,用P(E)表示。   我们需要对现实世界建模,将现实世界的动作映射为函数,动作结果映射为数。比如把投硬币看作f(z),z是影响结果的一系列不可观测的变量,x 表示投硬币的结果,x = f(z)