方差公式

随机森林

落爺英雄遲暮 提交于 2020-04-06 09:37:51
0. 前言 sklearn提供了sklearn.ensemble库,其中包括随机森林模型(分类)。但之前使用这个模型的时候,要么使用默认参数,要么将调参的工作丢给调参算法(grid search等)。今天想来深究一下到底是如何选择参数,如何进行调参。 学会调参是进行集成学习工作的前提。参数可分为两种,一种是影响模型在训练集上的准确度或影响防止过拟合能力的参数;另一种不影响这两者的其他参数。模型的准确度由其在训练集上的准确度及其防止过拟合的能力所共同决定,所以在调参时,我们主要对第一种参数进行调整,最终达到的效果是:模型在训练集上的准确度和防止过拟合能力的平衡。 1. 集成学习是什么 集成学习通过构建并结合多个学习器来完成学习任务。 集成学习的一般结构:先产生一组“个体学习器”(individual learner),然后再用某种策略将它们结合起来。个体学习器通常有一个现有的学习算法从训练数据产生,此时集成中只包含同种类型的个体学习器,比如“决策树集成”,此时的集合里全部都是决策树。同质集成中的个体学习器称为 “基学习器” (base learner),相应的学习算法成为“基学习算法”(base learning algorithm)。 因为集成学习通过对多个“弱学习器”进行结合,可以获得比单一学习器更加显著的泛化性能,所以集成学习的很多理论研究是针对弱学习器的。因此“基学习器

机器学习小组第二期第三周:简单的数据预处理和特征工程

寵の児 提交于 2020-03-17 06:13:17
目录 1.归一化 1.1.最值归一化(normalization) 1.2.均值方差归一化(standardization) 1.3.Sklearn中的归一化 2.缺失值处理 2.1.确定缺失值范围 2.2.填充缺失内容 2.2.1.平均值填充法 2.2.2.中位数填充法 2.2.3.条件平均值填充法 2.2.4.模型预测填充法 2.2.4.1.kNN 2.2.4.2.Regression 2.2.5.利用sklearn填补缺失值 3.处理分类型特征:编码与哑变量 4.处理连续型特征:二值化与分段 1.归一化 问题 :在量纲不同的情况下,不能反映样本中每一个特征的重要程度。 方案 :数据归一化,即标准化。把所有的数据都映射到同一个尺度(量纲)。 归一化可以提升模型精度,避免某一个取值范围特别大的特征对距离计算造成影响。(一个特例是决策树,对决策树不需要归一化,决策树可以把任意数据都处理得很好。) 数据的无量纲化可以是线性的,也可以是非线性的。线性的无量纲化包括 中心化 处理和 缩放 处理。中心化的本质是让所有记录减去一个固定值,即让数据样本数据平移到某个位置。缩放的本质是通过除以一个固定值,将数据固定在某个范围之中,取对数也算是一种缩放处理。 归一化之后的数据服从正态分布。 1.1.最值归一化(normalization) 把所有数据映射到0-1之间。使用范围

卷积神经网络(三):权值初始化方法之Xavier与MSRA

為{幸葍}努か 提交于 2020-03-05 20:25:03
基础知识 首先介绍一下Xavier等初始化方法比直接用高斯分布进行初始化W的优势所在: 一般的神经网络在前向传播时神经元输出值的方差会不断增大,而使用Xavier等方法理论上可以保证每层神经元输入输出方差一致。 这里先介绍一个方差相乘的公式,以便理解Xavier: Xavier 现在我们先来分析一层卷积: 其中ni表示输入个数。 根据概率统计知识我们有下面的方差公式: 特别的,当我们假设输入和权重都是0均值时(目前有了BN之后,这一点也较容易满足),上式可以简化为: 进一步假设输入x和权重w独立同分布,则有: 于是,为了保证 输入与输出方差一致 ,则应该有: 为什么要保证输入和输出的方差一致:如果不一致,则会造成方差越来越大(vary(y)>var(x)),或是越来越小(var(y) 为了保证前向传播和反向传播时每一层的方差一致,应 但是,实际当中输入与输出的个数往往不相等,于是为了均衡考量, 最终我们的权重方差应满足 : ——————————————————————————————————————— ——————————————————————————————————————— 学过概率统计的都知道 [a,b] 间的均匀分布的方差为: 因此, Xavier 初始化的实现就是下面的均匀分布 ——————————————————————————————————————————

机器学习 - 统计学中的均值、方差、标准差

为君一笑 提交于 2020-03-05 02:29:49
统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 方差: 标准差: 均值描述的是样本集合的中间点,它告诉我们的信息是有限的。 方差(variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。方差是衡量源数据和期望值相差的度量值。 而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。 以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是n,是因为这样能使我们以较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。 来源: CSDN 作者: weixin_45664706 链接: https://blog.csdn.net/weixin_45664706/article/details/104652506

DL_Notebook 6_BN/ResNet/DenseNet

梦想的初衷 提交于 2020-03-01 04:54:33
批量归一化和残差网络 批量归一化 Batch Normalization 1. 对全连接层做批量归一化 2.对卷积层做批量归⼀化 3.预测时的批量归⼀化 从零实现 基于LeNet的应用 简洁实现 残差网络 ResNet 残差块(Residual Block) ResNet模型 DenseNet 稠密连接网络 稠密块(Dense Block) 过渡层(Transition layer) DenseNet模型 批量归一化 Batch Normalization BN是针对深层CNN的方法之一,有助于有效模型的训练。是对数据的标准化处理。 对输入的标准化(浅层模型) 处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。 标准化处理输入数据使各个特征的分布相近(更加容易训练出有效的模型)。但对于深层模型,仅做输入的标准化是不够的,网络太深,靠近输出层还是可能发生数据的剧烈变化。 批量归一化(深度模型) 利用小批量上的均值和标准差,不断调整神经网络中间输出,从而使整个神经网络在各层的中间输出的数值更稳定。 1. 对全连接层做批量归一化 位置:全连接层中的仿射变换和激活函数之间。 关于BN位置的问题: Batch-normalized 应该放在非线性激活层的前面还是后面? 全连接: 输入 u \boldsymbol{u} u ,大小为 batch_size * 输入神经元个数

深入理解 “协方差矩阵”(python 模拟)

烂漫一生 提交于 2020-02-21 05:25:23
深入理解“协方差矩阵”(python模拟) 协方差矩阵时机器学习中常用的概念,应该是像是牛顿三大定律一样章口就莱。但是真当用到的时候却还是模棱两可,需要重新查资料确认,这次就写一篇文章一次性给自己说清楚,也争取能给大家说清楚。 方差和协方差 先弄清楚方差和协方差才能深入理解协方差矩阵(以下给出的均为统计学中的定义) 方差 :是用来度量单个随机变量的变化程度(也称离散程度) 协方差 :用于衡量两个随机变量总体变化程度。 有的地方说:“协方差刻画两个随机变量的相似程度”,这种表述是不够准确的,可以说:“刻画两个随机变量偏离各自期望的的程度的程度”。这么说就很绕,下面给出百度百科的解释 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。(百度百科) 网上还有一种比喻就是说方差就像是在一群人中衡量一个人的身高;而协方差是在一群中衡量一个人的升高和体重(也许对有些人会比较好理解,下面的说明也会用到这个例子) 下面给出 方差 的方程: σ x 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 \sigma_x^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-

总体方差与样本方差分母的小小区别,n还是n-1?

孤者浪人 提交于 2020-01-31 22:17:57
总体方差与样本方差分母的小小区别,n还是n-1? 引入 方差概念 方差计算 无偏估计 样本方差公式 相关参考链接 样本方差的自由度是n-1 引入 方差概念 方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量,用来度量随机变量和其数学期望(即均值)之间的偏离程度。 方差计算 定义: D X = E ( X − E X ) 2 = E X 2 − ( E X ) 2 D X=E(X-E X)^{2}=E X^{2}-(E X)^{2} D X = E ( X − E X ) 2 = E X 2 − ( E X ) 2 离散型和连续型的随机变量计算公式分别为: D ( X ) = { ∑ k = 1 ∞ [ x k − E ( X ) ] 2 p k , ∫ − ∞ ∞ [ x k − E ( X ) ] 2 f ( x ) d x \boldsymbol{D}(\boldsymbol{X})=\left\{\begin{array}{c} {\sum_{k=1}^{\infty}\left[\boldsymbol{x}_{k}-\boldsymbol{E}(\boldsymbol{X})\right]^{2} p_{k},} \\ {\int_{-\infty}^{\infty}\left[\boldsymbol{x}_{k}-\boldsymbol{E}(

Batch Normalization 批量标准化

喜欢而已 提交于 2020-01-26 10:12:10
本篇博文转自:https://www.cnblogs.com/guoyaohua/p/8724433.html  Batch Normalization作为最近一年来DL的重要成果,已经广泛被证明其有效性和重要性。虽然有些细节处理还解释不清其理论原因,但是实践证明好用才是真的好,别忘了DL从Hinton对深层网络做Pre-Train开始就是一个 经验领先于理论分析 的偏经验的一门学问。本文是对论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》的导读。   机器学习领域有个很重要的假设: IID独立同分布假设 ,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。那BatchNorm的作用是什么呢? BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。   接下来一步一步的理解什么是BN。   为什么深度神经网络 随着网络深度加深,训练起来越困难,收敛越来越慢? 这是个在DL领域很接近本质的好问题。很多论文都是解决这个问题的,比如ReLU激活函数,再比如Residual Network,BN本质上也是解释并从某个不同的角度来解决这个问题的。 一、

高等数理统计(五)

有些话、适合烂在心里 提交于 2020-01-24 23:47:04
引言   【比较官方的简介】数理统计学是一门以 概率论为基础 ,应用性很强的学科。它研究怎样以有效的方式收集、 整理和分析带有随机性的数据,以便对所考察的问题作出正确的推断和预测,为采取正确的决策和行动提供依据和建议。数理统计不同于一般的资料统计,它更侧重于应用随机现象本身的规律性进行资料的收集、整理和分析。   【简单的讲】,就是 通过样本分析来推断整体。   【意义或者重要性】在这个大数据时代,数据是非常重要的。怎样挖掘数据内部的规律或者隐含的信息,变得尤为重要。当时我们是不可能获得整体的数据的,所以我们只能通过抽取样本,进而通过样本来推断整体的规律。   【目录】    第一章、样本与统计量      一、引言:      二、总体与样本:      三、统计量:      四、常用分布:    第二章、参数估计     一、引言:      二、点估计—— 矩估计法 :     三、点估计—— 极大似然估计 :     四、估计量的优良性准则     五、区间估计——正态分布        1、引入       2、 单个正态总体参数的区间估计        3、两个正态总体的区间估计     六 、区间估计——非正态分布:       1、大样本正态 近似法       2、二项分布       3、泊松分布    第三章、假设检验     一、引言:     二

应该要知道的几个统计学定义.

谁说我不能喝 提交于 2020-01-24 23:43:37
//我们先来看一下几个名词基本解释. 1.标准差(Standard deviation) 简单来说,标准差是一组数值自平均值分散程度的一种测量观念.一个较大的标准差,代表大部分的数值和其平均值之间差异较大,一个较小的标准差,代表这些数值较接近平均值. 公式: 例如: 两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是7,但第二个集合具有较小的标准差. 标准差可以当作不确定性的一种测量.例如在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度.当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色.如果测量平均值与预测值相差太远(同时与标准差数值做比较) 则认为测量值与预测值互相矛盾.这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确. 标准差应用于投资上,可作为量度回报稳定性的指标.标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高.相反,标准差数值越小,代表回报较为稳定,风险亦较小. 例如: A,B两组各有6位学生参加同一次语文测验,A组的分数为95,85,75,65,55,45  B组的分数为73,72,71,69,68,67.这两组的平均数都是70,但A组的标准差为17.078分,B组的标准差为2.160分,说明A组学生之间的差距要比B组学生之间的差距大得多. 2.方差.