特征归一化
原因
特征数字差值很大的属性会对计算结果产生很大的影响,当我们认为特征是等权重的时候,因为取值范围不同,因此要进行归一化
例子
time | distance | weight |
---|---|---|
1.2 | 5000 | 80 |
1.6 | 6000 | 90 |
1.0 | 3000 | 50 |
例如我们认为,time,distance,weight三个权重是一样的,在做特征分析的时候会明显发现distance对计算结果的影响是最大的。
因此,使用归一化的方法将数值处理到0~1的范围内
最值归一化方法
\(x_{new}\)=(\(x\)-\(x_{min}\))/(\(x_{max}\)-\(x_{min}\))
cle<-function(df){ df_new<-(df-min(df))/(max(df)-min(df)) return df_new }
均值方差归一化方法
\(x_{\text {scale}}=\frac{x-x_{\text {mean}}}{s}\)
cle<-function(df){ df_new<-(df-mean(df))/std(df) return df_new }
python中提供了standardscaler类可以直接对np对象进行归一化
可以参考
来源:https://www.cnblogs.com/gaowenxingxing/p/12295207.html