特征归一化的必要性

孤街浪徒 提交于 2020-02-11 15:50:10

特征归一化

原因

特征数字差值很大的属性会对计算结果产生很大的影响,当我们认为特征是等权重的时候,因为取值范围不同,因此要进行归一化

例子

time distance weight
1.2 5000 80
1.6 6000 90
1.0 3000 50

例如我们认为,time,distance,weight三个权重是一样的,在做特征分析的时候会明显发现distance对计算结果的影响是最大的。
因此,使用归一化的方法将数值处理到0~1的范围内

最值归一化方法

\(x_{new}\)=(\(x\)-\(x_{min}\))/(\(x_{max}\)-\(x_{min}\))

cle<-function(df){
    df_new<-(df-min(df))/(max(df)-min(df))
    return df_new
}

均值方差归一化方法

\(x_{\text {scale}}=\frac{x-x_{\text {mean}}}{s}\)

cle<-function(df){
    df_new<-(df-mean(df))/std(df)
    return df_new
}

python中提供了standardscaler类可以直接对np对象进行归一化
可以参考

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!