正态分布

因子分析

佐手、 提交于 2020-01-25 19:09:50
1 问题 之前我们考虑的训练数据中样例 的个数m都远远大于其特征个数n,这样不管是进行回归、聚类等都没有太大的问题。然而当训练样例个数m太小,甚至m<<n的时候,使用梯度下降法进行回归时,如果初值不同,得到的参数结果会有很大偏差(因为方程数小于参数个数)。另外,如果使用多元高斯分布(Multivariate Gaussian distribution)对数据进行拟合时,也会有问题。让我们来演算一下,看看会有什么问题: 多元高斯分布的参数估计公式如下: 分别是求mean和协方差的公式, 表示样例,共有m个,每个样例n个特征,因此 是n维向量, 是n*n协方差矩阵。 当m<<n时,我们会发现 是奇异阵( ),也就是说 不存在,没办法拟合出多元高斯分布了,确切的说是我们估计不出来 。 如果我们仍然想用多元高斯分布来估计样本,那怎么办呢? 2 限制协方差矩阵 当没有足够的数据去估计 时,那么只能对模型参数进行一定假设,之前我们想估计出完全的 (矩阵中的全部元素),现在我们假设 就是对角阵(各特征间相互独立),那么我们只需要计算每个特征的方差即可,最后的 只有对角线上的元素不为0 回想我们之前讨论过的二维多元高斯分布的几何特性,在平面上的投影是个椭圆,中心点由 决定,椭圆的形状由 决定。 如果变成对角阵,就意味着椭圆的两个轴都和坐标轴平行了。 如果我们想对 进一步限制的话

因子分析

主宰稳场 提交于 2020-01-25 19:09:34
1 问题 之前我们考虑的训练数据中样例 的个数m都远远大于其特征个数n,这样不管是进行回归、聚类等都没有太大的问题。然而当训练样例个数m太小,甚至m<<n的时候,使用梯度下降法进行回归时,如果初值不同,得到的参数结果会有很大偏差(因为方程数小于参数个数)。另外,如果使用多元高斯分布(Multivariate Gaussian distribution)对数据进行拟合时,也会有问题。让我们来演算一下,看看会有什么问题: 多元高斯分布的参数估计公式如下: 分别是求mean和协方差的公式, 表示样例,共有m个,每个样例n个特征,因此 是n维向量, 是n*n协方差矩阵。 当m<<n时,我们会发现 是奇异阵( ),也就是说 不存在,没办法拟合出多元高斯分布了,确切的说是我们估计不出来 。 如果我们仍然想用多元高斯分布来估计样本,那怎么办呢? 2 限制协方差矩阵 当没有足够的数据去估计 时,那么只能对模型参数进行一定假设,之前我们想估计出完全的 (矩阵中的全部元素),现在我们假设 就是对角阵(各特征间相互独立),那么我们只需要计算每个特征的方差即可,最后的 只有对角线上的元素不为0 回想我们之前讨论过的二维多元高斯分布的几何特性,在平面上的投影是个椭圆,中心点由 决定,椭圆的形状由 决定。 如果变成对角阵,就意味着椭圆的两个轴都和坐标轴平行了。 如果我们想对 进一步限制的话

高等数理统计(五)

有些话、适合烂在心里 提交于 2020-01-24 23:47:04
引言   【比较官方的简介】数理统计学是一门以 概率论为基础 ,应用性很强的学科。它研究怎样以有效的方式收集、 整理和分析带有随机性的数据,以便对所考察的问题作出正确的推断和预测,为采取正确的决策和行动提供依据和建议。数理统计不同于一般的资料统计,它更侧重于应用随机现象本身的规律性进行资料的收集、整理和分析。   【简单的讲】,就是 通过样本分析来推断整体。   【意义或者重要性】在这个大数据时代,数据是非常重要的。怎样挖掘数据内部的规律或者隐含的信息,变得尤为重要。当时我们是不可能获得整体的数据的,所以我们只能通过抽取样本,进而通过样本来推断整体的规律。   【目录】    第一章、样本与统计量      一、引言:      二、总体与样本:      三、统计量:      四、常用分布:    第二章、参数估计     一、引言:      二、点估计—— 矩估计法 :     三、点估计—— 极大似然估计 :     四、估计量的优良性准则     五、区间估计——正态分布        1、引入       2、 单个正态总体参数的区间估计        3、两个正态总体的区间估计     六 、区间估计——非正态分布:       1、大样本正态 近似法       2、二项分布       3、泊松分布    第三章、假设检验     一、引言:     二

应该要知道的几个统计学定义.

谁说我不能喝 提交于 2020-01-24 23:43:37
//我们先来看一下几个名词基本解释. 1.标准差(Standard deviation) 简单来说,标准差是一组数值自平均值分散程度的一种测量观念.一个较大的标准差,代表大部分的数值和其平均值之间差异较大,一个较小的标准差,代表这些数值较接近平均值. 公式: 例如: 两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是7,但第二个集合具有较小的标准差. 标准差可以当作不确定性的一种测量.例如在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度.当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色.如果测量平均值与预测值相差太远(同时与标准差数值做比较) 则认为测量值与预测值互相矛盾.这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确. 标准差应用于投资上,可作为量度回报稳定性的指标.标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高.相反,标准差数值越小,代表回报较为稳定,风险亦较小. 例如: A,B两组各有6位学生参加同一次语文测验,A组的分数为95,85,75,65,55,45  B组的分数为73,72,71,69,68,67.这两组的平均数都是70,但A组的标准差为17.078分,B组的标准差为2.160分,说明A组学生之间的差距要比B组学生之间的差距大得多. 2.方差.

正态分布及正态随机变量

坚强是说给别人听的谎言 提交于 2020-01-22 10:17:16
正态分布是连续型随机变量概率分布中的一种,你几乎能在各行各业中看到他的身影,自然界中某地多年统计的年降雪量、人类社会中比如某地高三男生平均身高、教育领域中的某地区高考成绩、信号系统中的噪音信号等,大量自然、社会现象均按正态形式分布。 正态分布中有两个参数,一个是随机变量的均值 μμ,另一个是随机变量的标准差 σσ,他的概率密度函数 PDF 为:fX(x)=1√2πσe−(x−μ)2/(2σ2)fX(x)=12πσe−(x−μ)2/(2σ2)。 当我们指定不同的均值和标准差参数后,就能得到不同正态分布的概率密度曲线,正态分布的概率密度曲线形状都是类似的,他们都是关于均值 μμ 对称的钟形曲线,概率密度曲线在离开均值区域后,呈现出快速的下降形态。 这里,我们不得不专门提一句,当均值 μ=0μ=0,标准差 σ=1σ=1 时,我们称之为标准正态分布。 还是老规矩,眼见为实,下面来观察两组正态分布的概率密度函数取值,一组是均值为 00,标准差为 11 的标准正态分布。另一组,我们取均值为 11,标准差为 22。 代码片段: from scipy.stats import norm import matplotlib.pyplot as plt import numpy as np import seaborn seaborn.set() fig, ax = plt.subplots(1, 1

如何用python实现高斯分布

倾然丶 夕夏残阳落幕 提交于 2020-01-20 01:24:56
简单了解高斯分布 百度百科里边解释叫“正态分布”,也称常态分布,若随机变量x服从一个数学期望μ,方差σ²的正态分布,记为N(μ,σ²),其概率密度函数为正太分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度,当μ=0,σ=1时的正态分布是标准正态分布。 一维正态分布 若随机变量X服从一个位置参数μ,尺度参数为σ的概率分布,且其概率密度函数为: 则这个随机变量就称为正态随机变量,正态随机变量服从的分布就是正态分布,记作X-N(μ,σ²),读作X服从N(μ,σ²),或X服从正态分布。 正态分有两个参数,即期望μ和标准差σ,σ²为方差 正态分布是具有两个参数μ和σ²的连续型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数 σ²是此随机变量的方差,所以正态分布记作N(μ,σ²) μ是正态分布的位置参数,描述正态分布的集中趋势位置。概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小。正态分布以X=μ为对称轴,左右完全对称。正态分布的期望、均数、中位数、众数相同,均等于μ。 σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。 标准正态分布 当μ=0,σ=1时,正态分布就称为标准正态分布 其图像就长这个样子!!!! 单元正态分布有以下规律: σ越大

PRML第一章读书小结

风格不统一 提交于 2020-01-18 08:14:13
PRML第一章读书小结     第一章用例子出发,较为简单的引入了概率论、模型、决策、损失、信息论的问题,作为机器学习从业者,读PRML除了巩固已有基础,还受到了很多新的启发,下面将我收到的启发总结如下。 1. 多项式曲线拟合问题 多项式拟合问题作为全书的第一个引例,通过此说明了很多关键的概念。 给定一个训练集,训练集由$x$的N次观测组成,记作$mathbf{x} equivleft(x {1}, cdots, x {N}right)^{T}$,对应了相应的观测值$t$,记作$mathbf{t} equivleft(t {1}, cdots, t {N}right)^{T}$。 它们拥有了一个内在的规律,这个规律是我们想要学习的 ,但是同时独立的观察会被随机噪声所干扰。我们的目标是利用这个训练集预测输入变量的新值,我们需要隐式地发现内在的函数$sin(2pi x)$,由于 有限的观察和噪声 的,发现这一函数($sin(2pi x)$)很难。 概率论提供了一个框架,用精确的数学形式描述这种不确定性。决策论让我们能够根据合适的标准,利用这种概率的表示,进行最优的预测。 我们经常用多项式函数进行曲线拟合,即$y(x, boldsymbol{w})=w {0} w {1} x w {2} x^{2} ldots w {M} x^{M}=sum {j=0}^{M} w {j} x^{j}$

深度学习之BN(批量标准化)

纵然是瞬间 提交于 2020-01-13 12:18:51
BN作为最近一年来深度学习的重要成果,已经广泛被证明其有效性和重要性。虽然还解释不清其理论原因,但是实践证明好用才是真的好。 一、什么是BN 机器学习领域有个很重要的假设: 独立同分布假设 ,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。BN就是深度神经网络训练过程中使得每层网络的输入保持相同分布。 二、为什么要使用BN 根据论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》所讲内容,BN主要是解决Internal Convariate Shift问题。那么什么是Internal Convariate Shift呢? 可以这样解释:如果ML系统实例集合<X,Y>中的输入值X的分布老是变,这不符合IID假设,网络模型很难学习到有效的规律。对于深度学习这种包含很多隐层的网络结构,在训练过程中,因为各层参数不停在变化,所以每个隐层都会面临covariate shift的问题,也就是在训练过程中,隐层的输入分布老是变来变去,这就是所谓的“Internal Covariate Shift”,Internal指的是深层网络的隐层,是发生在网络内部的事情,而不是covariate

PRML第一章读书小结

末鹿安然 提交于 2020-01-13 09:58:26
PRML第一章读书小结     第一章用例子出发,较为简单的引入了概率论、模型、决策、损失、信息论的问题,作为机器学习从业者,读PRML除了巩固已有基础,还受到了很多新的启发,下面将我收到的启发总结如下。 1. 多项式曲线拟合问题 多项式拟合问题作为全书的第一个引例,通过此说明了很多关键的概念。 给定一个训练集,训练集由 \(x\) 的N次观测组成,记作 \(\mathbf{x} \equiv\left(x_{1}, \cdots, x_{N}\right)^{T}\) ,对应了相应的观测值 \(t\) ,记作 \(\mathbf{t} \equiv\left(t_{1}, \cdots, t_{N}\right)^{T}\) 。 它们拥有了一个内在的规律,这个规律是我们想要学习的 ,但是同时独立的观察会被随机噪声所干扰。我们的目标是利用这个训练集预测输入变量的新值,我们需要隐式地发现内在的函数 \(sin(2\pi x)\) ,由于 有限的观察和噪声 的,发现这一函数( \(sin(2\pi x)\) )很难。 概率论提供了一个框架,用精确的数学形式描述这种不确定性。决策论让我们能够根据合适的标准,利用这种概率的表示,进行最优的预测。 我们经常用多项式函数进行曲线拟合,即 \(y(x, \boldsymbol{w})=w_{0}+w_{1} x+w_{2} x^{2}+

Batch Normalization

家住魔仙堡 提交于 2020-01-12 19:24:42
前言: Batch Normalization是深度学习领域在2015年非常热门的一个算法,许多网络应用该方法进行训练,并且取得了非常好的效果。 众所周知,深度学习是应用随机梯度下降法对网络进行训练,尽管随机梯度下降训练神经网络非常有效,但是它有一个缺点,就是需要人为的设定很多参数,比如学习率,权重衰减系数,Dropout比例等。这些参数的选择对训练结果至关重要,以至于训练的大多数精力都耗费在了调参上面。BN算法就可以完美的解决这些问题。当我们使用了BN算法,我们可以去选择比较大的初始学习率,这样就会加快学习的速度;我们还可以不必去理会过拟合中的dropout、正则项约束问题等,因为BN算法可以提高网络的泛化能力;我们再也不需要使用局部响应归一化层,因为BN本身就是归一化的网络;还可以打乱训练数据,防止每批训练的时候,某一个样本经常被选到。通常在训练神经网络之前,我们都会对数据进行归一化处理,为什么呢?因为神经网络训练实际是为了学习数据的分布情况,一旦训练数据与测试数据分布不同,那么网络的泛化能力也会大大降低。另外,如果每一批的训练数据都不同,那么神经网络就会去适应不同训练数据的分布,这样就会大大降低网络训练的速度。深度学习的训练是一个复杂的过程,如果前几层的数据分布发生了变化,那么后面就会积累下去,不断放大,这样就会导致神经网络在训练过程中不断适应新的数据分布,影响网络训练的速度