Z-score 标准化
在R语言中: scale()
适用范围
1.数据的最大值和最小值未知
2.有超出取值范围的离群数据
经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:
x∗=(x−μ)/σ
标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。
缺点
- 估算Z-Score需要总体的平均值与方差,但是很难得到,大多数情况下是用样本的均值与标准差替代。
- 对于数据的分布有一定的要求,正态分布是最有利于Z-Score计算的。
- Z-Score消除了数据具有的实际意义,算出来的值与之前的变量已经没有关系了,因此Z-Score的结果只能用于比较数据间的结果,数据的真实意义还需要还原原值。
min-max标准化 /0-1标准化/离差标准化
对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:
其中max为样本数据的最大值,min为样本数据的最小值。
如果想要将数据映射到[-1,1],则将公式换成:
x∗=(x−xmean)/(xmax−xmin)
x_mean表示数据的均值。
缺陷
当有新数据加入时,可能导致max和min的变化,需要重新定义
使用情况
1、在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,Z-score standardization表现更好。
2、在不涉及距离度量、协方差计算,数据不符合正态分布的时候,可以使用第一种方法或其他归一化方法。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。
来源:CSDN
作者:babychrislee3
链接:https://blog.csdn.net/babychrislee3/article/details/103748836