特征工程是用数学转换的方法将原始输入数据转换为用于机器学习模型的新特征。特征工程提高了机器学习模型的准确度和计算效率,体现在以下五个方面
1、把原始数据转换成与目标相关的数据
我们可以使用特征工程对原始数据进行转换,使其更接近目标变量,转换后的特征对目标更有预测性。在这种情况下,虽然未加工输入出现在原始数据集中,但如果将转换后的特征作为输入,则机器学习将提高预测的准确性。
2、引入额外的数据源
特征工程可以使从业者向机器学习模型引入额外的数据源。对于首次注册的用户,我们可以猜测该用户的终生价值。在众多指标中,我们可以捕捉每个用户的地理位置。虽然这个数据可以直接作为分类特征(例如,IP地址和邮政编码)提供,但模型基于这些来确定位置信息仍存在困难。
通过第三方的人口统计数据,我们可以做的更好。例如,这将允许我们计算每个用户区域的平均收入和人口密度,并把这些因素直接插入到训练集中。现在,这些预测性因素立即变得更容易推断,而不是依赖模型从原始位置数据推断这种微妙的关系。更进一步,位置信息转换成收入和人口密度的特征工程,可使我们估计这些位置衍生出的特征哪一个更为重要。
3、使用非结构化的数据源
特征工程可使我们在机器学习模型中使用非结构化的数据源。许多数据源本质上并不是结构化的特征向量。非结构化数据,如文本、时间序列、图像、视频、日志数据和点击流等,占创建数据的绝大多数。特征工程使从业者从上述原始数据流中产生机器学习的特征向量。
4、创建更容易解释的特征
特征工程使机器学习的从业者能够创建更易于解释和实用的特征。通常,使用机器学习发现数据中的模式,对于产生精确的预测十分有用,但会遇到模型的可解释性和模型的最终应用的一些限制。这些情况下,在驱动数据生成、链接原始数据和目标变量的过程中,产生更有指示性的新特征,这样更有价值。
5、用大特征集提高创造性
特征工程使得我们可以扔进大量的特征,观察它们代表了什么。我们能创建尽可能多的数据,观察在训练模型中哪些更有预测力。这使得机器学习的从业者在创建和测试特征时摆脱僵化心理,并能够发现新的趋势和模式。
虽然当几十个甚至上百个特征用于训练机器学习模型时,过拟合成为一个问题,但严谨的特征选择算法,可减少特征使其易于管理。例如,我们可以自主选择前10个特征的预测,与所有1000个特征的预测是一样好,还是优于后者。
引自《机器学习实战》
在机器学习应用领域中,特征工程扮演着非常重要的角色,可以说特征工程是机器学习应用的基础。在机器学习业界流传着这样一句话:“数据和特征决定了机器学习算法的上限,而模型和算法只是不断逼近而已。”在机器学习应用中,特征工程介于“数据”和“模型”之间,特征工程是使用数据的专业领域知识创建能够使机器学习算法工作的特征的过程,而好的数据胜于多的数据。美国计算机科学家Peter Norvig有两句经典名言:“基于大量数据的简单模型胜于少量数据的复杂模型。”以及“更多的数据胜于聪明的算法,而好的数据胜于多的数据。”因此,特征工程的前提是收集足够多的数据,其次是从大量数据中提取关键信息并表示为模型所需要的形式。合适的特征可以让模型预测更加容易,机器学习应用更有可能成功。
引自《美团机器学习》
在监督机器学习过程中,我们使用数据教自动系统如何做出准确的决策。机器学习算法被设计成发现模式和历史训练数据间的联系;它们从数据中学习并将学习结果编码到模型中,从而对新数据的重要属性做出准确的预测。因此,训练数据是机器学习中的基本问题。有了高质量的数据,就可以捕捉到细微的差别和关联关系,从而建立高保真的预测系统。相反,若训练数据质量不佳,则再好的机器学习算法也无济于事。
来源:https://blog.csdn.net/jxq0816/article/details/100045276