真的明白数据归一化(MinMaxScaler)和数据标准化(StandardScaler)吗?
最近做一个时空序列预测的一个问题,用到了数据归一化和标准化,之前一直想花点时间看一下这俩的区别究竟是啥? 现在参考了几篇博文,加上自己的一些理解,来具体的总结总结。 数据的归一化是无量纲化,也就是忽略掉特征之间值大小对最后结果带来的影响,而标准化是统一特征的数据分布,忽略掉不同分布的特征对最后结果带来的影响 首先给出sklearn中归一化和标准化的实现方法: from sklearn . preprocessing import MinMaxScaler , StandardScaler # 归一化 minmax = MinMaxScaler ( ) x_new = minmax . fit_transform ( x ) #标准化 stand = StandardScaler ( ) x_new = stand . fit_transform ( x ) 有时候归一化也叫做normalization,千万不要让这个英语导致和标准化混了。 一、概念 归一化: 把数据变成0-1或者-1-1之间的小数。主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速 把有量纲表达式变成无量纲表达式,便于不同单位或量级的指标能够进行比较和加权。归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。 """归一化""" x' = ( x - X