特征工程
特征工程是用数学转换的方法将原始输入数据转换为用于机器学习模型的新特征。特征工程提高了机器学习模型的准确度和计算效率,体现在以下五个方面 1、把原始数据转换成与目标相关的数据 我们可以使用特征工程对原始数据进行转换,使其更接近目标变量,转换后的特征对目标更有预测性。在这种情况下,虽然未加工输入出现在原始数据集中,但如果将转换后的特征作为输入,则机器学习将提高预测的准确性。 2、引入额外的数据源 特征工程可以使从业者向机器学习模型引入额外的数据源。对于首次注册的用户,我们可以猜测该用户的终生价值。在众多指标中,我们可以捕捉每个用户的地理位置。虽然这个数据可以直接作为分类特征(例如,IP地址和邮政编码)提供,但模型基于这些来确定位置信息仍存在困难。 通过第三方的人口统计数据,我们可以做的更好。例如,这将允许我们计算每个用户区域的平均收入和人口密度,并把这些因素直接插入到训练集中。现在,这些预测性因素立即变得更容易推断,而不是依赖模型从原始位置数据推断这种微妙的关系。更进一步,位置信息转换成收入和人口密度的特征工程,可使我们估计这些位置衍生出的特征哪一个更为重要。 3、使用非结构化的数据源 特征工程可使我们在机器学习模型中使用非结构化的数据源。许多数据源本质上并不是结构化的特征向量。非结构化数据,如文本、时间序列、图像、视频、日志数据和点击流等,占创建数据的绝大多数