首先了解机器学习中的特征类别:连续型特征和离散型特征
连续性特征:
例子:[4654.1313, 11, 0, 4564654, …]
对于连续特征,在拿到数据后,需要进行两步常规操作:
- 归一化,将数据缩放到线性放缩到[-1,1]间;
- 标准化,将数据放缩到均值为0,方差为1。
注:
基于参数的模型或基于距离的模型,都是要进行特征的归一化。
基于树的方法是不需要进行特征的归一化,例如随机森林,bagging 和 boosting等。
离散性特征:
例子:[‘AskReddit’, ‘Jokes’, ‘politics’, ‘explainlikeimfive’, ‘gaming’]
对于离散的特征基本就是按照one-hot(独热)编码,该离散特征有多少取值,就用多少维来表示该特征,或者用其他类型的编码。
来源:CSDN
作者:ODIMAYA
链接:https://blog.csdn.net/ODIMAYA/article/details/104381149