特征工程
上周参加了学校的数据挖掘竞赛,总的来说,在还需要人工干预的机器学习相关的任务中,主要解决两个问题:(1)如何将原始的数据处理成合格的数据输入(2)如何获得输入数据中的规律。第一个问题的解决方案是:特征工程。第二个问题的解决办法是:机器学习。 相对机器学习的算法而言,特征工程的工作看起来比较low,但是特征工程在机器学习中非常重要。特征工程,是机器学习系列任务中最耗时、最繁重、最无聊却又是最不可或缺的一部分。这些工作先行者们已经总结的很好,作为站在巨人的肩膀上的后来者,对他们的工作表示敬意。主要内容转载自 http://www.cnblogs.com/jasonfreak/p/5448385.html 这篇文章在该文章的基础上做了添加或修改,仍在更新中 特征工程 1、特征工程是什么: 工业界流传者这么一句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 那么,到底什么是特征工程?我们知道,数据是信息的载体,但是原始的数据包含了大量的噪声,信息的表达也不够简练。因此, 特征工程的目的 ,是通过一系列的工程活动,将这些信息 使用更高效的编码方式 (特征)表示。使用特征表示的信息,信息损失较少,原始数据中包含的规律依然保留。此外,新的编码方式还需要 尽量减少原始数据中的不确定因素 (白噪声、异常数据、数据缺失…等等) 的影响 。 经过前人的总结