数据挖掘 2020-2-25

做~自己de王妃 提交于 2020-02-26 10:35:14

第一节数据挖掘

现给一拉基本概念

数据挖掘:从数据中“淘金”,从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程

数据挖掘的基本任务包括利用分类与预测聚类分析关联规则时序模式异常检测智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力

  1. 分类与预测和聚类分析的最大区别是有无标签,又称作有监督学习和无监督学习
  2. 比如:分类学习是在给你许多东西,里面会爬的是A,不会爬的是B,现在让你判断新来的是A还是B,就相当于现有一个老师告诉了你标签
  3.  而聚类分析是给你许多东西,你自己去分类,标准不同而类别不同,现在让你判断新来的是你分的哪一个类别里的,就相当于没有老师自己莽
  4. 关联规则感觉就像因果,比如A发生了导致B发生了,那下一次A发生了,就去推测B可能发生
  5. 时序模式就是基于事物发展的延续性和随机性预测事物未来的发展,如:销售量预测、天气预测等

数据挖掘的建模过程

 

 

第一步分随机抽样,等距抽样,分层抽样,从起始顺序抽样,分类抽样等

第二步就是获取数据信息

比如第三步我们发现的是线性模型fx = ax + b

第四步就是求a 和 b

第五步就是用数据测试模型合不合理,然后不断去完善

 

交叉验证法 

把总数据分成两部分,一部分为训练集,一部分为测试集。训练集得出一个model,然后用测试集去评估

判断model好坏可以用混淆矩阵

TPR=TP/(TP+FN)

TNR=TN/(TN+FP)

Accuracy=(TP+TN)/(P+N)

根据混淆矩阵画出ROC曲线

 

 

ROC曲线越接近1越好,即绿箭头下方曲线被认为是好的

代价敏感学习:预测错误对性能引起的代价

提升分析法:选择不同参数规模,观察性能变化

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!