数据挖掘学习笔记——(一)初探数据挖掘

前提是你 提交于 2020-02-27 01:25:15

数据挖掘

何为数据挖掘,百度百科讲到:
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

数据挖掘流程

(一)数据读取

  • 读取数据,进行演示
  • 统计数据各项指标
  • 明确数据规模与要完成的任务

(二)特征理解分析

  • 单特征分析,逐个变量分析其对结果的影响
  • 多变量统计分析,综合考虑多种情况影响
  • 统计绘图得出结论

(三)数据清洗与预处理

  • 对缺失值进行填充
  • 特征标准化、归一化
  • 筛选有价值的特征
  • 分析特征之间的相关性

(四)建立模型

  • 特征数据与标签设备
  • 数据集切分
  • 多种建模算法对比
  • 集成策略等方案改进
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!