方差公式

概率统计——期望、方差与最小二乘法

旧时模样 提交于 2020-01-24 18:59:01
本文始发于个人公众号: TechFlow 今天这篇文章和大家聊聊 期望和方差 。 期望 期望这个概念我们很早就在课本里接触了,维基百科的定义是: 它表示的是一个随机变量的值在每次实验当中可能出现的结果乘上结果概率的总和 。换句话说,期望值衡量的是多次实验下,所有可能得到的状态的平均结果。 我们举两个简单的例子,第一个例子是掷骰子。 我们都知道一个骰子有6个面,分别是1,2,3,4,5,6。我们每次投掷得到其中每一个面朝上的概率都是一样的,是1/6。对于投骰子这个事件而言,它的期望应该是: E ( X ) = 1 ∗ 1 6 + 2 ∗ 1 6 + ⋯ + 6 ∗ 1 6 = 3.5 E(X) = 1 * \frac{1}{6} + 2 * \frac{1}{6} + \cdots + 6 * \frac{1}{6} = 3.5 E ( X ) = 1 ∗ 6 1 ​ + 2 ∗ 6 1 ​ + ⋯ + 6 ∗ 6 1 ​ = 3 . 5 也就是说,我们如果投掷大量的骰子,得到的平均结果应该是3.5,但是骰子上并没有这个点数可以被掷出来。 另一个经典的例子就是 博弈游戏 ,老赌徒们水平各有高低,但一定深谙期望这个概念。举个最简单的例子,比如美国轮盘当中一个有38个数字,每次可以押一个数字。如果押中了,赌徒可以获得35倍的奖金,如果押不中,钱打水漂。我们来算下期望: E ( X ) =

概率统计——期望、方差与最小二乘法

一个人想着一个人 提交于 2020-01-24 17:22:34
本文始发于个人公众号: TechFlow 今天这篇文章和大家聊聊 期望和方差 。 期望 期望这个概念我们很早就在课本里接触了,维基百科的定义是: 它表示的是一个随机变量的值在每次实验当中可能出现的结果乘上结果概率的总和 。换句话说,期望值衡量的是多次实验下,所有可能得到的状态的平均结果。 我们举两个简单的例子,第一个例子是掷骰子。 我们都知道一个骰子有6个面,分别是1,2,3,4,5,6。我们每次投掷得到其中每一个面朝上的概率都是一样的,是1/6。对于投骰子这个事件而言,它的期望应该是: \[E(X) = 1 * \frac{1}{6} + 2 * \frac{1}{6} + \cdots + 6 * \frac{1}{6} = 3.5\] 也就是说,我们如果投掷大量的骰子,得到的平均结果应该是3.5,但是骰子上并没有这个点数可以被掷出来。 另一个经典的例子就是 博弈游戏 ,老赌徒们水平各有高低,但一定深谙期望这个概念。举个最简单的例子,比如美国轮盘当中一个有38个数字,每次可以押一个数字。如果押中了,赌徒可以获得35倍的奖金,如果押不中,钱打水漂。我们来算下期望: \[E(X) = -1 * \frac{37}{38} + 35 * \frac{1}{38}= -\frac{3}{38}\] 我们可以发现这个期望是一个 负值 ,也就是说短期内可能是盈利的,如果我们多次游戏

cnn-过拟合(over-fitting)

狂风中的少年 提交于 2020-01-21 08:30:10
概念 为了得到一致假设而使假设变得过度严格称为过拟合[1] 给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。 过拟合的示意图: 在上图中训练样本存在噪声,为了照顾它们,分类曲线的形状非常复杂,导致在真实测试时会产生错分类. 直白理解:在神经网络中,首先根据训练数据集进行训练,训练结果的好坏,通过一个损失函数的对预测值和实际真实值进行判断,当预测值和真实值对比,损失最小时,即拟合的很好,则训练的结果OK,如上图,蓝色的分类和红色的分类,通过复杂的曲线,完全在训练集上分类准确。其实用这个曲线去分类或预测实际(测试)数据集时,则会出现不准确的现象,则这种情况就是过拟合。如下图: 上图a,在训练集上,中间的虚线,已完全分开了小圆点和三角形,但是在测试集上(上图b),虚线还是把原点分类到了三角形这边。 表1 过拟合与欠拟合的判断标准 过拟合原因 (1)建模 样本 选取有误,如样本数量太少,选样方法错误,样本标签错误等,导致选取的样本数据不足以代表预定的分类规则; (2)样本噪音干扰过大,使得机器将部分噪音认为是特征从而扰乱了预设的分类规则; (3)假设的模型无法合理存在,或者说是假设成立的条件实际并不成立; (4)参数太多,模型复杂度过高; (5)对于 决策树 模型

模式识别系列之特征降维(1)主成分分析

半城伤御伤魂 提交于 2020-01-19 11:54:20
目录 1-PCA概述 2-理论推导 2.1-向量的内积与投影: 2.2-基的表示与变换: 2.3-协方差矩阵: 2.4-PCA推导 3-几何理解 4-计算过程 4.1-样本数小于特征数时的计算 4.2-matlab代码 5-实例 参考 1-PCA概述 主成分分析是一种常用的降维方法,它不使用标签信息,通过将原始坐标空间的数据( d × 1 d\times 1 d × 1 )投影到新的正交空间( k × 1 k\times 1 k × 1 )中实现数据降维,所谓的主成分就是指数据在新空间的基的方向。PCA以方差作为信息损失衡量的标准,使得数据降维过程中信息损失最小,即降维后数据的方差要尽量大。PCA首先找到所有数据方差最大的方向,并将其作为新的坐标空间的第一个轴的方向,然后在这个方向的垂直超平面上寻找第二个方差最大的方向,并作为新坐标空间第二个轴的方向,以此类推,直到找到需要的k个方向,也就是K个主成分,显然这k个新的基方向是两两垂直的。PCA的主要过程可以用“扭动坐标轴,保留K个轴”来形容。 为什么要以方差最大为依据呢?降维是为了数据更好地表示与计算,显然我们不希望降维后的数据成了一坨,使得原本分界明显的数据掺和在一起。例如,将数据投影到一维坐标系中,显然绿色的投影更好一些,因为其分散程度大,也就是方差更大。 对n个d维数据构成的数据集 X X X ( d × n d\times

双色球的概率和收益

你离开我真会死。 提交于 2020-01-14 20:05:11
  原文 | https://mp.weixin.qq.com/s/gF0aTunuxIFAffATab-v4w   我买双色球已经好多年了,一直相信“只要集齐七个球,就能大富大贵”,但这么多年过去了,愿望依旧没有达成。最近一期的双球又一次白白捐献了2块钱。长期来看,到底是赔钱还赚钱?如果有一天赚钱了,能否抵得过我的投入?      双色球由红球和蓝球两部份组成,红球是由01到33个号码中选择,蓝球是由01到16个号码中选择。每次开奖在红色球中随机摇出六个红号,在蓝球中随机摇出一个蓝号,下面是中奖条件和奖金:   直观上,中5块看起来比较容易,只要蓝色球号猜中就行,但实际上概率仅有6.25%,至于一等奖就更困难了。 中奖的概率   先来复习一下不放回抽样。   引例:设一批产品共有N个,其中有M个次品。每次从这批产品中随机地抽出一件来检查,检查后不放回,共取n次(相当于一次同时取n件产品),试求在n次检查中有k次是次品的概率Pk。   从N件产品中抽取n件共有 种不同的取法,现要求在抽取的一组n件产品中,有k件次品和n-k件合格品。因为这k件次品有 种不同的取法,n-k件合格品有 种不同的取法,因此最后的结果是:      现在来看双色球的中奖概率。   对于红球来说,开奖号码是排序的,既然中奖的规则只和彩票中是否有开奖号码有关,与彩票上的号码顺序无关,那么我们不妨让出票智能一点

方差、标准差、协方差和Pearson相关系数及其间的关系

你。 提交于 2020-01-13 01:13:47
方差、协方差和Pearson相关系数在机器学习的理论概念中经常出现,本文主要理一下这几个概念及其相互间的关系。 (一)方差: 方差是每个样本值与全体样本值的平均数之差的平方值的平均数,公式如下: 上式中mui为样本均值。方差可以反应样本数据的离散程度,由上式可以看出,方差越大,样本离散程度也越大。机器学习中,如果某一特征值的离散程度很小,即表示该特征取值很少,可以认为样本在这个特征上基本没有差异,那这个特征对于样本区分没有什么作用,可以将这个特征去除,从而做到特征选择。 (二)标准差: 标准差即方差的开平方,不展开了,下面是公式: (三)协方差: 协方差描述的是两个变量间的相关性,计算公式如下: 也可以用以下公式表示,两者是等价的: cov(X, Y) = E[(X-E[X])(Y-E[Y])] 上式中E[ ]表示求期望,其中E[X]为X特征期望或均值,E[Y]为Y特征期望或均值。 对比方差和协方差的公式可以看出两者很像,但方差的结果是大于等于0的,当等于0时,说明样本的x特征取值唯一,反应的样本的x特征的离散程度; 协方差的取值则可以大于零也可以小于零,当大于零时,说明对应的两个变量x和y与其均值相比都同大于或同小于,即两个变量的变化趋势相同(正相关);当小于零时,说明对应的两个变量x和y不同时大于或小于其均值,即两个变量的变化趋势相反(负相关);而当均方根接近零时

Batch Normalization、Layer Normalization、Instance Normalization、Group Normalization、Switchable Normalization比较

£可爱£侵袭症+ 提交于 2020-01-12 19:25:07
深度神经网络难训练一个重要的原因就是深度神经网络涉及很多层的叠加,每一层的参数变化都会导致下一层输入数据分布的变化,随着层数的增加,高层输入数据分布变化会非常剧烈,这就使得高层需要不断适应低层的参数更新。为了训练好模型,我们需要谨慎初始化网络权重,调整学习率等。 本篇博客总结几种归一化办法,并给出相应计算公式和代码。 归一化层,目前主要有这几个方法, Batch Normalization (2015年)、 Layer Normalization (2016年)、 Instance Normalization (2017年)、 Group Normalization (2018年)、 Switchable Normalization (2018年); 将输入的图像shape记为[ N , C hannel, H eight, W idth],这几个方法主要的区别就是在, batch Norm :在batch上,对NHW做归一化,对小batchsize效果不好; layer Norm :在通道方向上,对CHW归一化,主要对RNN作用明显; instance Norm :在图像像素上,对HW做归一化,用在风格化迁移; Group Norm :将channel分组,然后再做归一化; Switchable Norm :将BN、LN、IN结合,赋予权重

数据学习(十)-假设检验

北慕城南 提交于 2020-01-06 14:44:54
目录 1.假设检验的基本问题 2.一个总体参数的检验 3. 两个总体参数的检验 1.假设检验的基本问题 假设检验是推断统计的另一项重要内容,它与参数估计类似,但角度不同,参数估计是利用样本信息推断未知的总体参数,而假设检验则是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立。 1.1 假设的陈述 1.对总体参数的具体数值所作的陈述,称为假设,或称为统计假设。 2. 先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程,称为假设检验。 3. 通常将研究者想收集证据予以支持的假设称为备择假设,或称为研究假设,用H1或Ha表示。 4.通常将研究者想收集证据予以反对的假设称为原假设,或称零假设,用H0表示。 备选假设具有特定的方向性,并含有符号“>”或“<”的假设检验,称为单侧检验或单尾检验。 在单侧检验中,由于研究者感兴趣的方向不同,又可以分为左侧检验和右侧检验。如果研究者选择的备选假设的方向是“<”,称为左侧检验反之选择是“>”,称为右侧检验。 备选假设没特定的方向性,并含有符号“!=”的假设检验,称为双侧检验或双尾检验。 1.2 两类错误与显著性水平 当原假设为真时拒绝原假设,所犯的错误称为第一类错误, 又称弃真错误。犯第一类错误的概率通常记为a. 当原假设为假时没有拒绝原假设,所犯的错位称为第二类错误,又称取伪错误。犯第二类错误的概率通常记为b。

概率论与数理统计教学内容

≡放荡痞女 提交于 2020-01-05 22:09:13
概率论部分 Chapter 1: 随机事件及其概率 1 随机试验;样本点;样本空间 2 随机事件, 必然事件, 不可能事件, 互不相容事件, 对立事件;随机事件的关系及运算 3 概率的定义 4 概率的性质:有限可加性,减法公式,加法公式,及推论 5 条件概率及乘法公式 6 两个事件相互独立的定义及性质;多个事件相互独立的定义及性质 7 伯努利概率模型 8 全概率公式 9 贝叶斯公式 Chapter 2: 随机变量及其分布 1 随机变量;离散型随机变量;连续型随机变量 2 分布函数及性质 3 离散型随机变量的分布率及性质;连续性随机变量的概率密度函数及性质 4 常见的离散型随机变量的分布:0-1 分布;二项分布;泊松分布 5 常见的连续型随机变量的分布: 均匀分布;指数分布;正态分布 6 随机变量的函数的分布: 离散型随机变量函数的分布;连续型随机变量函数的分布(分布函数法和公式法) Chapter 3: 数字特征 1 数学期望;离散型随机变量的期望;连续型随机变量的期望;随机变量的函数的期望 2 数学期望的性质 3 方差;标准差 4 方差的性质 5 变异系数(注:不是很重要) 6 常见随机变量的期望和方差: 两点分布的期望和方差;泊松分布的期望和方差;均匀分布的期望和方差;指数分布的期望和方差;正态分布的期望和方差 Chapter 4 : 随机向量(或称多维随机变量)及其分布 1

数学期望、方差、标准差、协方差

a 夏天 提交于 2019-12-29 01:51:46
数学期望 数学期望E(x)完全由随机变量X的概率分布所确定,若X服从某一分布,也称E(x)是这一分布的数学期望。 数学期望的定义是实验中每次可能的结果的概率乘以其结果的总和。 离散型随机量的数学期望 定义:离散型随机变量的所有可能取值 xixi 与其对应的概率 P(xi) 乘积的和为该离散型随机量的数学期望,记为 E(X)。 公式: E(X)=∑i=1nxiPi 连续型随机量的数学期望 定义:假设连续型随机变量 XX的概率密度函数为 f(x),如果积分∫+∞−∞xf(x)dx绝对收敛,则称这个积分的值为连续型随机量的数学期望,记为 E(X)。 公式: E(X)=∫+∞−∞xf(x)dx 数学期望的性质 设C为常数: E(C)==C 设C为常数: E(CX)==CE(X) 加法:E(X+Y)==E(X)+E(Y) 当X和Y相互独立时,E(XY)=)=E(X)E(Y) (主意,X和Y的相互独立性可以通过下面的“协方差”描述) 数学期望的意义 根据“大数定律”的描述,这个数字的意义是指随着重复次数接近无穷大时,数值的算术平均值几乎肯定收敛于数学期望值,也就是说数学期望值可以用于预测一个随机事件的平均预期情况。 方差 数学期望给出了随机变量的平均大小,现实生活中我们还经常关心随机变量的取值在均值周围的散布程度,而方差就是这样的一个数字特征。 方差有两个定义,一个是统计学的定义