方差

机器学习小组第二期第三周:简单的数据预处理和特征工程

寵の児 提交于 2020-03-17 06:13:17
目录 1.归一化 1.1.最值归一化(normalization) 1.2.均值方差归一化(standardization) 1.3.Sklearn中的归一化 2.缺失值处理 2.1.确定缺失值范围 2.2.填充缺失内容 2.2.1.平均值填充法 2.2.2.中位数填充法 2.2.3.条件平均值填充法 2.2.4.模型预测填充法 2.2.4.1.kNN 2.2.4.2.Regression 2.2.5.利用sklearn填补缺失值 3.处理分类型特征:编码与哑变量 4.处理连续型特征:二值化与分段 1.归一化 问题 :在量纲不同的情况下,不能反映样本中每一个特征的重要程度。 方案 :数据归一化,即标准化。把所有的数据都映射到同一个尺度(量纲)。 归一化可以提升模型精度,避免某一个取值范围特别大的特征对距离计算造成影响。(一个特例是决策树,对决策树不需要归一化,决策树可以把任意数据都处理得很好。) 数据的无量纲化可以是线性的,也可以是非线性的。线性的无量纲化包括 中心化 处理和 缩放 处理。中心化的本质是让所有记录减去一个固定值,即让数据样本数据平移到某个位置。缩放的本质是通过除以一个固定值,将数据固定在某个范围之中,取对数也算是一种缩放处理。 归一化之后的数据服从正态分布。 1.1.最值归一化(normalization) 把所有数据映射到0-1之间。使用范围

Tensorflow BatchNormalization详解:1_原理及细节

久未见 提交于 2020-03-12 04:59:07
Batch Normalization: 原理及细节 觉得有用的话,欢迎一起讨论相互学习~ Follow Me 参考文献 吴恩达deeplearningai课程 课程笔记 Udacity课程 为了标准化这些值,我们首先需要计算出批数据中的平均值,如果你仔细看这些代码,你会发现这不是对输入的批数据计算平均值,而是对任意一个特定层的在传入非线性函数之前的输出求平均值。然后将其通过非线性函数后传递给下一层作为输入。 我们将平均值表示为 \(\mu_B\) ,是所有 \(x_i\) 值得和然后除以 \(x_i\) 的个数 \(m\) 。 \[ \mu_B \leftarrow \frac{1}{m}\sum_{i=1}^m x_i \] 然后我们需要计算方差或者均方差,用 \(\sigma_{B}^{2}\) 表示。如果你不熟悉数理统计,简单来说就是将每个 \(x_i\) 的值将其减去这个批次的平均值(先前我们计算过这个值并且用 \(\mu_B\) 表示)。这就是我们所说的对该值的偏差。我们将结果平方以得到平方偏差。将批次中所有数据的平方偏差求和再除以数值的个数即 \(m\) ,所得的这个平均值叫做平方偏差。 \[ \sigma_{B}^{2} \leftarrow \frac{1}{m}\sum_{i=1}^m (x_i - \mu_B)^2 \] 一旦我们有了均值和方差

卷积神经网络(三):权值初始化方法之Xavier与MSRA

為{幸葍}努か 提交于 2020-03-05 20:25:03
基础知识 首先介绍一下Xavier等初始化方法比直接用高斯分布进行初始化W的优势所在: 一般的神经网络在前向传播时神经元输出值的方差会不断增大,而使用Xavier等方法理论上可以保证每层神经元输入输出方差一致。 这里先介绍一个方差相乘的公式,以便理解Xavier: Xavier 现在我们先来分析一层卷积: 其中ni表示输入个数。 根据概率统计知识我们有下面的方差公式: 特别的,当我们假设输入和权重都是0均值时(目前有了BN之后,这一点也较容易满足),上式可以简化为: 进一步假设输入x和权重w独立同分布,则有: 于是,为了保证 输入与输出方差一致 ,则应该有: 为什么要保证输入和输出的方差一致:如果不一致,则会造成方差越来越大(vary(y)>var(x)),或是越来越小(var(y) 为了保证前向传播和反向传播时每一层的方差一致,应 但是,实际当中输入与输出的个数往往不相等,于是为了均衡考量, 最终我们的权重方差应满足 : ——————————————————————————————————————— ——————————————————————————————————————— 学过概率统计的都知道 [a,b] 间的均匀分布的方差为: 因此, Xavier 初始化的实现就是下面的均匀分布 ——————————————————————————————————————————

偏差-方差,过拟合-欠拟合

大憨熊 提交于 2020-03-04 04:06:11
偏差(Bias)与方差(Variance)   记协变量为 X X X ,预测变量为 y y y ,设 X X X 和 y y y 之间的关系可通过模型 y = f ( X ) + ϵ y=f(X)+\epsilon y = f ( X ) + ϵ ,其中误差项 、 ϵ 、\epsilon 、 ϵ 服从均值为0的正态分布,即 ϵ ∼ N ( 0 , σ ϵ ) \epsilon\sim\mathcal{N}(0,\sigma_\epsilon) ϵ ∼ N ( 0 , σ ϵ ​ ) 。   设通过某个统计模型得到 f ( X ) f(X) f ( X ) 的估计为 f ^ ( X ) \hat{f}(X) f ^ ​ ( X ) ,在点 x x x 处的均方预测误差(泛化误差)定义为,模型在点 x x x 的预测值 f ^ ( x ) \hat{f}(x) f ^ ​ ( x ) 与真实值 y y y 差值平方的期望,即: P M S E ( x ) = E [ ( f ^ ( x ) − y ) 2 ] PMSE(x)=E[(\hat{f}(x)-y)^2] P M S E ( x ) = E [ ( f ^ ​ ( x ) − y ) 2 ] 该项可做以下分解: P M S E ( x ) = E [ ( f ^ ( x ) − y ) 2 ] = E [ ( f ^ ( x

DL_Notebook 6_BN/ResNet/DenseNet

梦想的初衷 提交于 2020-03-01 04:54:33
批量归一化和残差网络 批量归一化 Batch Normalization 1. 对全连接层做批量归一化 2.对卷积层做批量归⼀化 3.预测时的批量归⼀化 从零实现 基于LeNet的应用 简洁实现 残差网络 ResNet 残差块(Residual Block) ResNet模型 DenseNet 稠密连接网络 稠密块(Dense Block) 过渡层(Transition layer) DenseNet模型 批量归一化 Batch Normalization BN是针对深层CNN的方法之一,有助于有效模型的训练。是对数据的标准化处理。 对输入的标准化(浅层模型) 处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。 标准化处理输入数据使各个特征的分布相近(更加容易训练出有效的模型)。但对于深层模型,仅做输入的标准化是不够的,网络太深,靠近输出层还是可能发生数据的剧烈变化。 批量归一化(深度模型) 利用小批量上的均值和标准差,不断调整神经网络中间输出,从而使整个神经网络在各层的中间输出的数值更稳定。 1. 对全连接层做批量归一化 位置:全连接层中的仿射变换和激活函数之间。 关于BN位置的问题: Batch-normalized 应该放在非线性激活层的前面还是后面? 全连接: 输入 u \boldsymbol{u} u ,大小为 batch_size * 输入神经元个数

批量归一化

橙三吉。 提交于 2020-02-25 23:03:53
对于浅层模型,对输入进行标准化处理,使得各个特征的分布相近,任意一个特征在数据集中所有样本上的均值为0、标准差为1 对于深度模型: 提出批量归一化,利用小批量的均值和标准差,不断调整网络中间输出,使得网络各层的输出数值更稳定 对全连接层做BatchNormalization 对卷积层做批量归一化 位置:卷积计算之后、应用激活函数之前。 卷积层输出的维度:样本数x通道数x卷积后的高x卷积后的宽 = mxcxpxq 如果卷积计算输出多个通道,我们需要对这些通道的输出分别做批量归一化,且每个通道都拥有独立的拉伸和偏移参数。 计算:对单通道,batchsize=m,卷积计算输出=pxq 对该通道中m×p×q个元素同时做批量归一化,使用相同的均值和方差。 预测时的批量归一化 训练:以batch为单位,对每个batch计算均值和方差。 预测:用移动平均估算整个训练数据集的样本均值和方差。 因为预测的时候是没有均值和方差做参考的,只能使用移动平均法来估算 https://blog.csdn.net/zyuPp/article/details/104418772 来源: CSDN 作者: 123scales 链接: https://blog.csdn.net/qq_41268898/article/details/104505151

偏差与方差

浪尽此生 提交于 2020-02-24 04:21:59
偏差-方差分解 试图对学习算法的 期望泛化错误率 进行分解。 测试样本 x \(y_D\)为 x 在数据集中标记 y为x的真实标记 f(x;D)为训练集D上学得模型f 在x上的预测输出 学习算法的期望预测:   偏差 方差 噪声 含义  偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。 方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。   来源: https://www.cnblogs.com/xuehaozhe/p/pian-cha-yu-fang-cha.html

【机器学习】理解方差、偏差且其泛化误差的关系

感情迁移 提交于 2020-02-24 04:19:17
https://blog.csdn.net/ChenVast/article/details/81385018 符号 涵义 测试样本 数据集 在数据集中的标记 的真实标记 训练集 学得的模型 由训练集 学得的模型 对 的预测输出 模型 对 的 期望预测 输出 方差 在一个训练集 D上模型 f对测试样本 x的预测输出为 f(x;D), 那么学习算法 f对测试样本 x的 期望预测 为: 上面的期望预测也就是针对 不同 数据集 D, f 对 x的预测值取其期望(平均预测)。 使用样本数相同的不同训练集产生的方差为: 偏差 期望预测与真实标记的误差称为偏差(bias), 为了方便起见, 我们直接取偏差的平方: 泛化误差 以回归任务为例, 学习算法的平方预测误差期望为: 对算法的期望泛化误差进行分解: 令噪声为零, ,所以红色区域的等于零。 最后剩下 ,结果为泛化误差 = 偏差 + 方差 + 噪声 偏差、方差、噪声 偏差:度量了模型的期望预测和真实结果的偏离程度,刻画了 模型本身的拟合能力 。 方差:度量了同样大小的训练集的变动所导致的学习性能的变化,即 刻画了数据扰动所造成的影响 。 噪声:表达了当前任务上任何模型所能达到的期望泛化误差的下界, 刻画了学习问题本身的难度 。 图解偏差与方差 低方差 高方差 低偏差 数据点集中+数据点落在预测点上 数据不集中+数据点部分落在预测点上

样本估计量的有偏估计和无偏估计

戏子无情 提交于 2020-02-23 01:28:09
0.背景 有一组独立同分布的样本 { x 1 , x 2 , . . . , x m } \{x_{1},x_{2},...,x_{m}\} { x 1 ​ , x 2 ​ , . . . , x m ​ } 服从高斯分布 p ( x i ) = N ( x i ; μ , σ 2 ) p(x_{i})=N(x_{i};\mu,\sigma^{2}) p ( x i ​ ) = N ( x i ​ ; μ , σ 2 ) 。高斯概率密度函数如下: p ( x i ) = 1 2 π σ 2 e x p ( − 1 2 ( x i − μ ) 2 σ 2 ) p(x_{i})=\frac{1}{\sqrt{2\pi\sigma^{2}}}exp(-\frac{1}{2}\frac{(x_{i}-\mu)^{2}}{\sigma^{2}}) p ( x i ​ ) = 2 π σ 2 ​ 1 ​ e x p ( − 2 1 ​ σ 2 ( x i ​ − μ ) 2 ​ ) 1.估计的偏差计算公式 b i a s ( θ ^ m ) = E ( θ ^ m ) − θ bias(\hat\theta_m)=E(\hat\theta_m)-\theta b i a s ( θ ^ m ​ ) = E ( θ ^ m ​ ) − θ 其中 θ \theta θ 是定义数据生成分布的 θ

图像融合(二)-- 简单加权融合

流过昼夜 提交于 2020-02-17 08:19:15
     简单加权融合也叫做像素加权平均法(Weighted Averaging,WA)是最简单、直接的图像融合方法。它具有简单易实现、运算速度快的优点,并能提高融合图像的信噪比,但是这种方法削弱了图像中的细节信息,降低了图像的对比度,在一定程度上使得图像中的边缘变模糊,在多数应用场合难以取得满意的融合效果。 优化:主成分分析(Principal Component Analysis,PCA)就是一种常用的系数优化方法,利用主成分分析确定的权值可以得到一幅亮度方差最大的融合图像。PCA方法运用于高分辨率全色图像与低分辨率多光谱图像的融合时,通过用高分辨率全色图像替代由低分辨率多光谱图像提取出的第一主成分,得到同时具有高空间分辨率和高光谱分。   从性能上讲,主成分分析法更像是对源图像的选择而不是对源图像中显著信息的融和。局限性:以全局方差作为信息显著性度量通常会把较大的权值分配给方差较大的源图像。实际应用中,当某一传感器输出图像对比度较低时,这种权值分配方法效果会比较好,但就一般情况而言,这种分配方法并不科学。此外,主成分分析法对图像中的死点、噪声等干扰信息非常敏感,这些干扰信息会显著的提高图像的全局方差。 来源: https://www.cnblogs.com/silence-hust/p/4193150.html