第一节数据挖掘
现给一拉基本概念
数据挖掘:从数据中“淘金”,从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程
数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、异常检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力
- 分类与预测和聚类分析的最大区别是有无标签,又称作有监督学习和无监督学习
- 比如:分类学习是在给你许多东西,里面会爬的是A,不会爬的是B,现在让你判断新来的是A还是B,就相当于现有一个老师告诉了你标签
- 而聚类分析是给你许多东西,你自己去分类,标准不同而类别不同,现在让你判断新来的是你分的哪一个类别里的,就相当于没有老师自己莽
- 关联规则感觉就像因果,比如A发生了导致B发生了,那下一次A发生了,就去推测B可能发生
- 时序模式就是基于事物发展的延续性和随机性预测事物未来的发展,如:销售量预测、天气预测等
数据挖掘的建模过程
第一步分随机抽样,等距抽样,分层抽样,从起始顺序抽样,分类抽样等
第二步就是获取数据信息
比如第三步我们发现的是线性模型fx = ax + b
第四步就是求a 和 b
第五步就是用数据测试模型合不合理,然后不断去完善
交叉验证法
把总数据分成两部分,一部分为训练集,一部分为测试集。训练集得出一个model,然后用测试集去评估
判断model好坏可以用混淆矩阵
TPR=TP/(TP+FN)
TNR=TN/(TN+FP)
Accuracy=(TP+TN)/(P+N)
根据混淆矩阵画出ROC曲线
ROC曲线越接近1越好,即绿箭头下方曲线被认为是好的
代价敏感学习:预测错误对性能引起的代价
提升分析法:选择不同参数规模,观察性能变化
来源:https://www.cnblogs.com/wifePI/p/12365379.html