minepy

数据挖掘比赛/项目全流程介绍

梦想的初衷 提交于 2020-04-19 11:56:54
【说在前面】本人博客新手一枚,象牙塔的老白,职业场的小白。以下内容仅为个人见解,欢迎批评指正,不喜勿喷![握手][握手] 1. 数据预处理 1.1 选择数据样本(企业级应用) 例如客观选择某一时间段内的所有样本集合等(避免人为主观选择) 例如在评价样本中去除恶意/随意评价样本等(避免错误样本的干扰) 1.2 可视化特征分布 dataframe.info/dataframe.describe等(查看数据样本的整体分布情况) dataframe.plot/matplotlib/seaborn等(包括柱状图/散点图/折线图等) 1.3 缺失值处理 如果某样本的缺失记录占比较大: 可统计为“缺失量” 可直接删除该样本 如果某特征的缺失记录占比较大: 可二值化为“有/无” 可直接删除该样本 如果某样本/特征的缺失记录占比较小: 可根据领域知识补全 数值型:可根据均值/众数/模型预测等补全 类别型:可以定义为新的类别等 可不处理,有些模型对缺失值不敏感:例如树模型/神经网络等 1.4 异常值处理 异常值判定:需根据数据分布/业务场景等 RobustScaler/robust_scale等 之后会推出异常值检测专题 可直接删除该样本 可采用缺失值的处理方式 注意数据不一致问题 注意数值型可用盖帽/对数变换等压缩 可不处理,有些模型对异常值不敏感:例如KNN/随机森林等 2. 特征工程 2.1