datakit

数据挖掘篇——特征工程之特征降维

六月ゝ 毕业季﹏ 提交于 2020-04-22 03:45:28
在业界广泛流传着一句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 由此可见,数据和特征是多么的重要,而在数据大多数场景下,数据已经就绪,不同人对于同样的数据处理得到的特征却千差万别,最终得到的建模效果也是高低立现。从数据到特征这就要从特征工程说起了... 0. 特征工程 首先介绍下,特征工程是什么:利用数据领域的相关知识来创建 能够使机器学习算法达到最佳性能的 特征的过程 [1.wiki] 。特征工程是一个较大领域,它通常包括特征构建、特征提取和特征选择这三个子模块,重要性排序:特征构建>特征提取>特征选择。 先来介绍几个术语: 特征构建:从原始数据中构建出特征,有时也称作特征预处理,包括缺失值处理、异常值处理、无量纲化(标准化/归一化)、哑编码等。 特征提取:将原特征转换为一组具有明显物理意义或统计意义或核的新特征。 特征选择:从特征集合中挑选一组最具统计意义的特征子集。 其中本文主要总结下可统一用于特征降维的特征提取和特征选择技术方法,特征构建涉及技术点较少,下回再分解。 1. 特征降维 WHAT :将高维空间的特征通过删减或变换转为低维空间特征 WHY :降低时间/空间复杂度、降低提取特征开销、降噪、提升鲁棒性、增强可解释性、便于可视化; HOW :主要有两种方式,即特征选择和特征提取。 1.1 特征选择(子集筛选): 特征选择方法主要分为三种: