目录
1.数据取样
(1)抽取标准
相关性 可靠性 有效性
(2)抽样方法
随机抽样:若数据集中每组观察值都有相同被抽样概率,则可随机抽样。
等距抽样:对一组观测值进行等间隔抽样。
分层抽样:首先将样本总体分成若干层次(或者若干子集)。每个层次中的观测值具有相同被选中的概率,但不同层次数据集可具有不同概率值。
从起始顺序抽样:从输入数据集的起始处开始抽样。
分类抽样:依据某种属性取值选择数据子集,如按客户名称分类、按地址分类等。分类抽样以类为单位,在每类数据中抽样。
2.数据整理
(1)数据探索
异常值分析
缺失值分析
相关性分析
周期性分析
(2)数据预处理
数据筛选
数据变量分析
缺失值处理
坏数据处理
数据标准化
主成分分析
属性选择
数据规约
3.挖掘建模
分类
聚类
关联规则分析
时序模式
智能推荐
4.模型评价
来源:https://blog.csdn.net/qq_35350265/article/details/100972351