机器学习中的离散特征和连续特征

给你一囗甜甜゛ 提交于 2020-02-19 10:36:02

首先了解机器学习中的特征类别:连续型特征和离散型特征

连续性特征:

例子:[4654.1313, 11, 0, 4564654, …]
对于连续特征,在拿到数据后,需要进行两步常规操作:

  1. 归一化,将数据缩放到线性放缩到[-1,1]间;
  2. 标准化,将数据放缩到均值为0,方差为1。
    注:
    基于参数的模型或基于距离的模型,都是要进行特征的归一化。
    基于树的方法是不需要进行特征的归一化,例如随机森林,bagging 和 boosting等。

离散性特征:

例子:[‘AskReddit’, ‘Jokes’, ‘politics’, ‘explainlikeimfive’, ‘gaming’]
对于离散的特征基本就是按照one-hot(独热)编码,该离散特征有多少取值,就用多少维来表示该特征,或者用其他类型的编码。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!