手把手教你入门和实践特征工程 的全方位万字笔记,附代码下载
🙊 说起特征工程,都说是机器学习建模中最为重要而且费时的一项工作,而且它涉及的知识点会非常地多,经验老道的老司机自然是轻车熟路了,但对于刚刚入门的新手司机,学习到的知识点都是东一点西一点的,不够系统化,本篇文章是在阅读了一本评分极高的特征工程书籍 📚 《特征工程入门与实践》 后的一篇笔记文,记录下相对比较系统的知识点以及可运行复现的代码,希望对各位同行有所帮助哈。 图:强力推荐这本书 🚗 目录 🔍 特征理解 🔋 特征增强 🔨 特征构建 ✅ 特征选择 💫 特征转换 📖 特征学习 大家可以先看下思维导图: 🔍 01 特征理解 在拿到数据的时候,我们第一步需要做的是理解它,一般我们可以从下面几个角度入手: (注:本节用到了两个数据集,分别是Salary_Ranges_by_Job_Classification 和 GlobalLandTemperaturesByCity) 1. 区分结构化数据与非结构化数据 如一些以表格形式进行存储的数据,都是结构化数据;而非结构化数据就是一堆数据,类似于文本、报文、日志之类的。 2. 区分定量和定性数据 定量数据:指的是一些数值,用于衡量某件东西的数量; 定性数据:指的是一些类别,用于描述某件东西的性质。 其实区分了定量和定性数据,还可以继续细分下去,分为 定类(nominal)、定序(ordinal)、定距(interval)、定比数据(ratio)