数据竞赛(二)-数据清洗
缺失值分析及处理 缺失值出现的原因分析 采取合适的方式对缺失值进行填充 异常值分析及处理 根据测试集数据的分布处理训练集的数据分布 使用合适的方法找出异常值 对异常值进行处理 深度清洗 分析每一个communityName、city、region、plate的数据分布并对其进行数据清洗 参考资料: 一文带你探索性数据分析(EDA) 分割线正文 主要思路分析 虽然这步骤是缺失值处理,但还会涉及到一些最最基础的数据处理。 缺失值处理 缺失值的处理手段大体可以分为:删除、填充、映射到高维(当做类别处理)。详细的请自行查找相关资料学习。 根据任务一,直接找到的缺失值情况是pu和uv;但是,根据特征nunique分布的分析,可以发现rentType存在"–"的情况,这也算是一种缺失值。 此外,诸如rentType的"未知方式";houseToward的"暂无数据"等,本质上也算是一种缺失值,但是对于这些缺失方式,我们可以把它当做是特殊的一类处理,而不需要去主动修改或填充值。 将rentType的"–“转换成"未知方式"类别; pv/uv的缺失值用均值填充; buildYear存在"暂无信息”,将其用众数填充。 转换object类型数据 这里直接采用LabelEncoder的方式编码,详细的编码方式请自行查阅相关资料学习。 时间字段的处理 buildYear由于存在"暂无信息"