方差公式

吴恩达《深度学习》第二门课(3)超参数调试、Batch正则化和程序框架

微笑、不失礼 提交于 2019-12-05 00:39:33
3.1调试处理 (1)不同超参数调试的优先级是不一样的,如下图中的一些超参数,首先最重要的应该是学习率α(红色圈出),然后是Momentum算法的β、隐藏层单元数、mini-batch size(黄色圈出)、再之后是Layer、learning rate decay(紫色圈出)、最后是Adam算法中的β 1 、β 2 、ε。 (2)用随机取值代替网格点取值。下图左边是网格点取值,如果二维参数中,一个参数调试的影响特别小,那么虽然取了25个点,其实只相当于取了5个不同的点;而右图中随机取值取了多少个点就代表有多少不同值的点。 (3)由粗糙到精细的取值,先粗糙取值,然后发现最好的点,再在这个点附近进行精细的取值。如下图所示 3.2为超参数选择合适的范围 (1)随机取值并不是在取值范围内随机均匀取值,而是要选择合适的标尺来随机取值。 (2)案例1:在选择网络层数时,其范围是[2,4],那么直接均匀取值2,3,4都是合理的。 (3)案例2:如果在给学习率取值时,其范围是[0.0001,1],如果均匀取值,将会有90%的点落在0.1到1之间,这时不合理的;此时应该用对数坐标0.0001=10 -4 ,1=10 0 ,所以应该是在[-4,0]上随机均匀取值作为r,然后10 r 作为学习率α。如下图所示 (4)指数加权平均的超参数β取值范围是[0.9,0.999],其方法是:1-β=[0.1,0

吴恩达《深度学习》第二门课(1)深度学习的实用层面

狂风中的少年 提交于 2019-12-04 13:47:18
1.1训练,验证,测试集(Train/Dev/Test sets) (1)深度学习是一个按照下图进行循环的快速迭代的过程,往往需要多次才能为应用程序找到一个称心的神经网络。 (2)在机器学习中,通常将样本分成训练集,验证集和测试集三部分,数据规模相对较小,适合传统的划分比例(如6:2:2),数据集规模比较大的,验证集和测试集要小于数据总量的20%或者10%甚至更低。 (3)交叉验证集和测试集务必来自同分布。 (4)有时候只有训练集和验证集,没有独立的测试集(将无法提供无偏性能评估),这时人们也会把验证集称为测试集。 1.2偏差,方差(Bias/Varicance) (1)以下三个图分别表示欠拟合(高偏差),适度拟合,过拟合(高方差): (2)最优误差也称为贝叶斯误差,本节中假设最有误差为零(如在图像分类中人可以辨别出所有图像的类别)。 (3)训练误差减去左右误差为偏差,结果大说明偏差大;验证集误差减去训练误差为方差,结果大说明偏差大。 (4)是存在高偏差高方差的情况的,如下图,直线导致高偏差,局部过拟合导致高方差: 1.3机器学习基础 (1)偏差和方差是两种完全不同的情况,有分别对应的处理方法,不要盲目的使用一些策略。 (2)在深度学习时代,只要正则适度,通常构建一个更大的网络便可以在不影响方差的同时减少偏差,而采用更多数据通常可以在不过多影响偏差的同时减少方差。 1.4正则化

PRML学习笔记第一章

匿名 (未验证) 提交于 2019-12-03 00:41:02
【转】 模式识别的目标 自动从数据中发现潜在规律,以利用这些规律做后续操作,如数据分类等。 模型选择和参数调节 类似的一族规律通常可以以一种模型的形式为表达,选择合适模型的过程称为模型选择(Model Selection)。模型选择的目的只是选择模型的形式,而模型的参数是未定的。 从数据中获得具体规律的过程称为训练或学习,训练的过程就是根据数据来对选定的模型进行参数调节(Parameter Estimation)的过程,此过程中使用的数据为训练数据集(Training Set)。 对于相同数据源的数据来讲,规律应该是一般的(泛化Generalization),因此评估一个学习结果的有效性可以通过使用测试数据集(Testing Set)来进行的。 预处理 对于大多数现实中的数据集来讲,使用其进行学习之前,通常需要进行预处理,以提高学习精度及降低学习的开销。 以图像识别为例,若以像素做为一个特征,往往一幅图像的特征就能达到几万的数量级,而很多特征(如背景色)都是对于图像辨识起不到太大作用的,因此对于图像数据集,预处理过程通常包括维数约减(特征变换,特征选择),仅保留具有区分度的特征。 文本数据分类任务中,对训练文本也有类似的处理方式,只不过此时扮演特征的是单词,而不是像素值。 监督学习和非监督学习 输入向量(input vector): ,响应向量(target vector):

浅谈均值、方差、标准差、协方差的概念及意义

匿名 (未验证) 提交于 2019-12-03 00:34:01
统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 标准差: 方差: 均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。 以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是n,是因为这样能使我们以较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。 标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集,最简单的是大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的猥琐程度跟他受女孩子的欢迎程度是否存在一些联系。协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义: 来度量各个维度偏离其均值的程度,协方差可以这样来定义: 协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义)

数学基础之方差、标准差和协方差三者之间的定义与计算

匿名 (未验证) 提交于 2019-12-03 00:27:02
理解三者之间的区别与联系,要从定义入手,一步步来计算,同时也要互相比较理解,这样才够深刻。 方差 方差是各个数据与平均数之差的平方的平均数。在概率论和数理统计中,方差(英文Variance)用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究随机变量和均值之间的偏离程度有着很重要的意义。 标准差 方差开根号。 协方差 在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。 可以通俗的理解为:两个变量在变化过程中是否同向变化?还是反方向变化?同向或反向程度如何? 你变大,同时我也变大,说明两个变量是同向变化的,这是协方差就是正的。 你变大,同时我变小,说明两个变量是反向变化的,这时协方差就是负的。 如果我是自然人,而你是太阳,那么两者没有相关关系,这时协方差是0。 从数值来看,协方差的数值越大,两个变量同向程度也就越大,反之亦然。 可以看出来,协方差代表了两个变量之间的是否同时偏离均值,和偏离的方向是相同还是相反。 公式:如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值,即为协方差。 方差,标准差与协方差之间的联系与区别: 1. 方差和标准差都是对一组(一维)数据进行统计的,反映的是一维数组的离散程度;而协方差是对2组数据进行统计的

方差迭代计算公式

匿名 (未验证) 提交于 2019-12-02 23:34:01
方差迭代计算过程推导 术语约定 递推公式 过程推导 术语约定 (1) E n = 1 n ∑ i = 1 n x i E_n =\frac{1}{n} \sum_{i=1}^{n}x_i \tag{1} E n = n 1 i = 1 ∑ n x i ( 1 ) (2) F ( n ) = ∑ i = 1 n ( x 2 E n ) F(n) = \sum_{i=1}^{n}{(x^2-E_n)} \tag{2} F ( n ) = i = 1 ∑ n ( x 2 E n ) ( 2 ) (3) V ( n ) = 1 n ∑ i = 1 n ( x 2 E n ) = F ( n ) n V(n) = \frac{1}{n}\sum_{i=1}^{n}{(x^2-E_n)} = \frac{F(n)}{n} \tag{3} V ( n ) = n 1 i = 1 ∑ n ( x 2 E n ) = n F ( n ) ( 3 ) 递推公式 F ( n ) = ∑ i = 1 n ( x i 2 E n ) = ∑ i = 1 n x i 2 2 ∑ i = 1 n x i E n + n E n 2 由 E n = 1 n ∑ i = 1 n x i 可 导 出 , n E n = ∑ i = 1 n x i , 故 F(n) = \sum_{i=1}^ {n}{(x_i^ 2

Batch Normalization

可紊 提交于 2019-12-01 23:30:59
转自 https://blog.csdn.net/qq_42823043/article/details/89765194 简介 Batch Normalization简称BN,是2015年提出的一种方法《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》,已经广泛被证明其有效性和重要性。虽然有些细节处理还解释不清其理论原因,但是实践证明好用才是真的好。 原论文地址:https://arxiv.org/abs/1502.03167 机器学习领域有个很重要的假设:IID独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。而BN就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。 为什么深度神经网络随着网络深度加深,训练起来越困难,收敛越来越慢?这是个在DL领域很接近本质的好问题。很多论文都是解决这个问题的,比如ReLU激活函数,再比如ResNet等,BN本质上也是解释并从某个不同的角度来解决这个问题的。 一、Internal Covariate Shift 现象: 从论文名字可以看出,BN是用来解决“Internal Covariate Shift”问题的

SPSS(一)方差、相关和回归

陌路散爱 提交于 2019-12-01 19:36:14
引言 全局的概览+八个案例+窜一下 抽象的一般具有连续的性质,分类变量的小数位是没有意义的。抽象的变量,它的0往往是没有意义的,比如说幸福感。同样是连续性变量,有的0是有意义的,比如说订单量,如果0是有意义的,可以进行加减乘除运算,0没有意义,加减是可以的。标度可以分:间距(抽象的)和比率(0是有意义的,不抽象的变量)。抽象叫潜,不抽象叫显,潜变量和显变量。潜变量是用来表示未来的,显变量是表示现在和过去。显变量不是预测,是用来描述,潜变量是用来预测的。显是用来归一,潜是用来 四种测量,名义、有序、间距和比率。名义和有序,顺序。有序、间距,等距。间距、比率,抽象。Y讲测量,X讲选择。关于XY,就是角色。角色就是演戏,主角Y,通过一系列的过程塑造出来,主要是输入和目标在演,其他四个是跑龙套的。测量在统计是重点,角色不是特别重要,建议也设,拿到数据,先看一下行有多大,再看列,在了解业务的基础上设。Excel中没有,因为不是专业的统计软件。 知识点:数据流(项目流)、数据测量、y和x 线性回归流程 量化需求Y,比如客户流失,然后找到客户流失的因素,x1/x2/x3……,对Y的影响不是相同的,y=β 0 +β 1 x 1 + βx+……+ε R方,再加上一个误差。我想知道这个客户未来会不会走,我需要知道未来的x,未来昂贵的y不容易获得,但是可以获得廉价的x,比如雨季来临,蛋糕销售量增加

统计学基础知识

僤鯓⒐⒋嵵緔 提交于 2019-12-01 17:06:17
为理解下面的知识需要先区分好下面几个概念: 总体均值: \(u\) 总体标准差: \(σ\) 样本均值: \(u'\) 样本标准差: \(σ'\) 样本中符合条件A的占比: \(p'\) 是样本大小: \(n\) 总体大小: \(N\) 抽样 数据分析中,虽然数据越多越齐越好,可是受限于各类因素的制约,我们并不能获取全部的数据。比如Excel的性能限制,比如数据库不支持大文件导出、或者是无法全量进行的用户调研等。 抽样是一种应对方法,通过样本来推断总体,抽样结果提供的仅仅是相应总体特征的估计,「估计」这一点很重要。 抽样有很多方式,样本首要满足随机性。比如进行社会访谈,你不能只选择商场人流区,因为采访到的人群明显是同一类人群,反而会遗漏郊区和乡镇的人群,遗漏宅男,遗漏老人。 互联网产品中,抽样也无处不在,大名鼎鼎的AB测试就是一种抽样,选取一部分人群验证运营策略或者产品改进。通常筛选用户ID末尾的数字,比如末尾选择0~4,于是抽样出了50%的用户,这既能保证随机性,也能保证控制性。 毕竟抽样的目的是验证和检验,需要始终保证用户群体的完全隔离,不能用户一会看到老界面,一会看到改进后的新界面。以上也适用于推荐算法的冠军挑战,用户分群等。 至于放回抽样,分层抽样,在互联网的数据分析中用不太到,这里就略过了。 点估计 设总体 X 的分布函数形式已知, 但它的一个或多个参数为未知,

关于集成学习的学习笔记

北慕城南 提交于 2019-12-01 05:51:10
1、常见的集成学习框架 bagging,boosting、stacking (1)bagging 从训练集进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果。 (2)boosting 训练过程为阶梯状,基模型按次序一一进行训练(实现上可以做到并行),基模型的训练集按照某种策略每次都进行一定的转化。对所有基模型预测的结果进行线性综合产生最终的预测结果。 (3)stacking 将训练好的所有基模型对训练基进行预测,第j个基模型对第i个训练样本的预测值将作为新的训练集中第i个样本的第j个特征值,最后基于新的训练集进行训练。同理,预测的过程也要先经过所有基模型的预测形成新的测试集,最后再对测试集进行预测。 2、偏差和方差 偏差(bias)描述的是预测值和真实值之间的差异,方差(variance)描述的是预测值作为随机变量的离散程度。 (1)方差越大的模型越容易过拟合。 (2)集成学习框架中的基模型是弱模型,通常来说弱模型是偏差高(在训练集上准确度低)方差小(防止过拟合能力强)的模型。但是并不是所有集成学习框架中的基模型都是弱模型。bagging和stacking中的基模型为强模型(偏差低方差高),boosting中的基模型为弱模型。 在bagging和boosting框架中,通过计算基模型的期望和方差,我们可以得到模型整体的期望和方差。为了简化模型