挖掘建模
挖掘建模 经过数据探索于数据预处理,得到了可以直接建模的数据..根据挖掘目标和数据形式可以建立分类与预测,聚类分析,关联规则,时序模式和偏差检测等模型.帮助企业提取数据汇总蕴含得商业价值,提高企业得竞争力. 分类和预测问题得两种主要类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数模型,预测给定自变量对应得因变量得值 实现过程: 分类: 分类是构造一个分类模型,输入样本得属性值,输出对应得类别,将每个样本映射到预先定义好 得类别. 分类模型建立再已有类标记得数据集上,模型再已有样本上得准确率可以方便得计算,所以分类属于有监督得学习. 预测 预测是指建立两种或两种以上变量相互依赖得函数模型(线性回归...),然后进行预测或控制 实现过程: 分类和预测得实行过程类似, 分类算法有两步过程:第一步是学习步,通过归纳分析训练样本集来建立分类规则;第二步是分类步,先用已知得测试样本集评估分类规则得准确率,如果准确率是可以接受的,则使用该模型对未知类标号的待测样本集进行预测. 预测模型的实现也有两步,第一步是通过训练集建立预测属性(数值型)的函数模型,第二步再模型通过检验后进行预测或控制 常用的分类与预测算法 算法名称 算法描述 回归分析 回归分析是确定预测属性(数值型)与其他变量之间相互依赖的定量关系最常用的统计学方法,包括线性回归,非线性回归,Logistic回归,岭回归