数据标准化

08_特征预处理之标准化

社会主义新天地 提交于 2019-12-01 23:08:31
1.标准化特点:通过对原始数据进行变换把数据变换到均值为0,方差为1范围内。 对数据进行缩放首先想到标准化!!! 2.公式:  注:公式作用于每一列,mean为平均值,σ为标准差         其中:方差考量数据的稳定性 3.结合归一化来理解标准化 4.用法:  sklearn特征化API: scikit-learn.preprocessing.StandardScaler    StandardScaler(…) 处理之后每列来说所有数据都聚集在均值0附近方差为1  StandardScaler.fit_transform(X,y) X:numpy array格式的数据[n_samples,n_features] 返回值:转换后的形状相同的array  StandardScaler.mean_ 原始数据中每列特征的平均值(现在这个方法改为了.with_mean , 但是我打印这个结果为true)  StandardScaler.std_ 原始数据每列特征的方差 (现在这个方法改为了.with_std) 5.标准化步骤:1、实例化StandardScaler           2、通过fit_transform转换 6.案例:对[[ 1., -1., 3.], [ 2., 4., 2.], [ 4., 6., -1.]]进行标准化    from sklearn

python数据分析实战---数据处理

孤者浪人 提交于 2019-11-30 21:13:55
数据处理 缺失值处理 数据缺失主要包括记录缺失和字段信息缺失等情况,其对数据分析会有较大影响,导致结果不确定性更加显著 1.判断是否有缺失值 import numpy as np import pandas as pd import matplotlib.pyplot as plt from scipy import stats % matplotlib inline # 判断是否有缺失值数据 - isnull,notnull # isnull:缺失值为True,非缺失值为False # notnull:缺失值为False,非缺失值为True s = pd.Series([12,33,45,23,np.nan,np.nan,66,54,np.nan,99]) df = pd.DataFrame({'value1':[12,33,45,23,np.nan,np.nan,66,54,np.nan,99,190], 'value2':['a','b','c','d','e',np.nan,np.nan,'f','g',np.nan,'g']}) # 创建数据 print(s.isnull()) # Series直接判断是否是缺失值,返回一个Series print(df.notnull()) # Dataframe直接判断是否是缺失值,返回一个Series print(df[

数据标准化与Python实现

隐身守侯 提交于 2019-11-30 14:22:37
一、原理 数据标准化(Normalization):将数据按照一定比例进行缩放,使其落入到一个特定的小区间。 数据标准化的类别: Min-Max标准化 Z-Score标准化(Standard Score,标准分数) 小数定标(Decimal scaling)标准化 均值归一化 向量归一化 指数转换 1、Min-Max标准化 Min-Max标准化,指对原始数据进行线性变换,将值映射到[0,1]之间。 公式: 式中,x为原始数据的数据,x min 为原始数据的最小值,x max 为原始数据的最大值。 2、Z-Score标准化 又称为Standard Score(标准分数),指基于原始数据的均值(mean)和标准差(standard deviation)来进行数据的标准化。 公式: 式中,x为原始数据的数据,μ为原始数据的均值,σ为原始数据的标准差。 3、小数定标(Deciaml scaling)标准化 指通过移动小数点的位置来进行数据的标准化。小数点移动的位数取决于原始数据中的最大绝对值。 公式: 式中,x为原始数据,10 j 的j表示最大绝对值的位数。 例如,现在有一个数组[-309, -10, -43, 87, 344, 970],其中最大绝对值为970,即j=3,标准化为的数据为[-0.309, -0.01, -0.043, 0.087, 0.344, 0.97] 4、均值归一化

MIAME|Highwire press

隐身守侯 提交于 2019-11-30 12:07:38
生物信息学 GEO 可存储基因芯片数据,支持 MIAME 。 MIAME 是 minimum information about a microarry experiment 。这之中存储研究原始数据 + 标准化之后的数据 + 样本注释信息 + 实验设计信息 + 芯片注释信息 + 样本制备和数据处理信息,即所有证明研究流程可信度的信息,上传至此数据库使他人使用数据重复实验。 Highwire press 是一个 free download software 。 来源: https://www.cnblogs.com/yuanjingnan/p/11583846.html

数据标准化和离散化

泪湿孤枕 提交于 2019-11-30 00:36:30
数据的标准化 标准化数据的目的:将数据转化为同一量级,避免量级对结果产生不利的影响 数据转化的三种方式:离差标准化,标准差标准化,小数定标标准化 离差标准化 Ø 数据的整体分布情况并不会随离差标准化而发生改变,原先取值较大的数据,在做完离差标准化后的值依旧较大。 Ø 当数据和最小值相等的时候,通过离差标准化可以发现数据变为0。 Ø 若数据极差过大就会出现数据在离差标准化后数据之间的差值非常小的情况。 Ø 同时,还可以看出离差标准化的缺点:若数据集中某个数值很大,则离差标准化的值就会接近于0,并且相互之间差别不大。若将来遇到超过目前属性[min,max]取值范围的时候,会引起系统出错,这时便需要重新确定min和max。离差标准化的特点 # 1, 离差标准化 --- (x-min)/(max-min) # 将数据转化为【0,1】之间 # 容易受到异常点的影响 def deviation ( data ) : ''' 离差标准化 :param data: 传入数据 :return: 标准化之后的数据 ''' data = ( data - data . min ( ) ) / ( data . max ( ) - data . min ( ) ) return data 标准差标准化 标准差标准化也叫零均值标准化或分数标准化,是当前使用最广泛的数据标准化方法。 # 2,标准差标准化 --

浅析数据标准化和归一化,优化机器学习算法输出结果

送分小仙女□ 提交于 2019-11-27 21:28:42
关于标准化(standardization) 数据标准化能将原来的数据进行重新调整(一般也称为 z-score 规范化方法),以便他们具有标准正态分布的属性,即 μ=0 和 σ=1。其中,μ 表示平均值,σ 表示标准方差。数据标准化之后的形式可以按照如下公式进行计算: 如果我们是比较两个不同大小维度的数据,那么将这些数据标准化到以 0 为中心并且标准差为 1 的范围,这对许多的机器学习算法来说也是一般的要求。比如,从直觉上来说,我们可以将梯度下降看作一个特殊的例子。由于特征值 xj 在权重更新中发挥作用,那么某些权重可能比其他权重更新的速度更快,即: 其中,wj:=wj+Δwj,η 表示学习率,t 表示目标正确分类结果,o 表示模型的输出分类结果。 其他直观的例子包括 KNN 算法和一些聚类算法上面,都会使用这种数据标准化的方法。 事实上,我能想到唯一不需要数据标准化的算法就应该是基于决策树的算法了。我们来看一般的 CART 决策树算法。在这里我们不深入的分析信息熵的含义,我们可以把这个决策简单的想象成 is feature x_i >= some_val ? 。从直观上来讲,我们真的不需要来关心数据特征在哪个大小维度(比如,不同数量级,不同领域 —— 这些真的不关心)。 那么,在哪些算法中特征数据标准化是比较重要的呢?比如下面这些算法: 对于基于欧几里得距离的 KNN 算法

数据标准化/归一化方法

牧云@^-^@ 提交于 2019-11-27 18:03:05
归一化方法(Normalization Method) 1。 把数变为(0,1)之间的小数 主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内。 2 。把有量纲表达式变为无量纲表达式 归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。 比如,复数阻抗可以归一化书写:Z = R + jωL = R(1 + jωL/R) ,复数部分变成了纯数量了,没有量纲。 另外,微波之中也就是电路分析、信号系统、电磁波传输等,有很多运算都可以如此处理,既保证了运算的便捷,又能凸现出物理量的本质含义。 标准化方法(Normalization Method) 数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。由于信用指标体系的各个指标度量单位是不同的,为了能够将指标参与评价计算,需要对指标进行规范化处理,通过函数变换将其数值映射到某个数值区间。一般常用的有以下几种方法。 (1) 最小-最大规范化对原始数据进行线性变换。假定MaxA与MinA分别表示属性A的最大与最小值。最小最大规范化通过计算 将属性A的值映射到区间[a, b]上的v。一般来说,将最小-最大规范化在用于信用指标数据上,常用的有以下两种函数形式: a) 效益型指标(越大越好型)的隶属函数: b) 成本型指标(越小越好型)的隶属函数: (2)

数据预处理--标准化/归一化

ε祈祈猫儿з 提交于 2019-11-27 18:02:17
1. fit--transform--fit_transform区别 fit原义指的是使适合的意思,其实有点train的含义但是和train不同的是,它并不是一个训练的过程,而是一个适配的过程,过程都是定死的,最后只是得到了一个统一的 转换的规则模型 。 transform:是 将数据进行转换 ,比如数据的归一化和标准化,将测试数据按照训练数据同样的模型进行转换,得到特征向量。 fit_transform:可以看做是fit和transform的结合,如果 训练阶段使用fit_transform ,则在 测试阶段只需要对测试样本进行transform 就行了。 2. 标准化归一化 from sklearn import preprocessing #标准化 std_scale = preprocessing.StandardScaler().fit(df[['Alcohol', 'Malic acid']]) df_std = std_scale.transform(df[['Alcohol', 'Malic acid']]) #归一化 minmax_scale = preprocessing.MinMaxScaler().fit(df[['Alcohol', 'Malic acid']]) df_minmax = minmax_scale.transform(df[[

特征缩放(Feature Scaling)

时光怂恿深爱的人放手 提交于 2019-11-26 23:54:58
特征缩放的几种方法: (1)最大最小值 归一化(min-max normalization) : 将数值范围缩放到 [0, 1] 区间里 (2)均值归一化(mean normalization) : 将数值范围缩放到 [-1, 1] 区间里,且数据的均值变为0 (3)标准化 / z值归一化( s tandardization / z-score normalization ) :将数值缩放到0附近,且数据的分布变为均值为0,标准差为1的标准正态分布(先减去均值来对特征进行 中心化 mean centering 处理,再除以标准差进行缩放) (4) 最大绝对值归一化(max abs normalization ) : 也就是将数值 变为单位长度(scaling to unit length) ,将数值范围缩放到 [-1, 1] 区间里 (5)稳键归一化(robust normalization): 先减去中位数,再除以四分位间距(interquartile range),因为不涉及极值,因此在数据里有异常值的情况下表现比较稳健 * 有一些时候,只对数据进行中心化和缩放是不够的,还需对数据进行 白化(whitening) 处理来消除特征间的线性相关性。 归一化和标准化的区别: 归一化(normalization):归一化是将样本的特征值转换到同一量纲下,把数据映射到[0,1]或者[-1

批标准化(BatchNorm)

混江龙づ霸主 提交于 2019-11-26 16:38:56
注:本文部分参考自以下文章: 深入理解Batch Normalization批标准化 李理:卷及神经网络之Batch Normalization的原理及实现 原文链接: 《Batch Normalizaion: Accelerating Deep Network Training by Reducing Internal Convariate Shift》 翻译、导读等推荐: 1 、 2 1. BN目的 机器学习领域有个很重要的假设:独立同分布(IID,Independent Identically Distributed)假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。那BatchNorm的作用是什么呢?BatchNorm就是在深度神经网络训练过程中 使得每一层神经网络的输入保持相同分布 的。 2. 内部协变量漂移(Internal Covariate Shift) When the input distribution to a learning system changes, it is said to experience covariate shift covariate shift问题是由于训练数据的领域模型 Ps(X) 和测试数据的 Pt(X) 分布不一致造成的