数据标准化处理

非 Y 不嫁゛ 提交于 2020-01-18 02:39:33

Z-score 标准化

在R语言中: scale()

适用范围

1.数据的最大值和最小值未知
2.有超出取值范围的离群数据

经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:

x∗=(x−μ)/σ

标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。

在这里插入图片描述

缺点

  1. 估算Z-Score需要总体的平均值与方差,但是很难得到,大多数情况下是用样本的均值与标准差替代。
  2. 对于数据的分布有一定的要求,正态分布是最有利于Z-Score计算的。
  3. Z-Score消除了数据具有的实际意义,算出来的值与之前的变量已经没有关系了,因此Z-Score的结果只能用于比较数据间的结果,数据的真实意义还需要还原原值。

min-max标准化 /0-1标准化/离差标准化

对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:
在这里插入图片描述

其中max为样本数据的最大值,min为样本数据的最小值。

如果想要将数据映射到[-1,1],则将公式换成:

x∗=(x−xmean)/(xmax−xmin)

x_mean表示数据的均值。

缺陷

当有新数据加入时,可能导致max和min的变化,需要重新定义

使用情况

1、在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,Z-score standardization表现更好。
2、在不涉及距离度量、协方差计算,数据不符合正态分布的时候,可以使用第一种方法或其他归一化方法。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!