数据挖掘概念与技术

《数据挖掘概念与技术》学习笔记-第一章

和自甴很熟 提交于 2019-12-20 23:11:34
1.1 什么是数据挖掘? 数据挖掘是从大量数据中发现有趣模式和知识的过程,它既不是一种广告宣传,也不是数据库、统计学、机器学习或模式识别发展而来的技术的简单转换或应用。 机器学习的不断发展,为数据挖掘提供了很好的数据分析技术基础,而统计学则帮助人们更好的理解数据的全貌,模式识别也在数据挖掘的过程中被广泛应用,因此,数据挖掘实际上是多种数据分析技术共同发展才得以发展壮大的,并且与这些技术相辅相成,互相促进。 如果把数据挖掘看作知识发现过程,则这一过程涉及以下步骤: 1.数据清理:消除噪声和删除不一致数据 2.数据集成:多种数据源可以组合在一起 3.数据选择:从数据库中提取与分析人物相关的数据 4.数据变换:通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式 5.数据挖掘:基本步骤,使用智能方法提取数据模式 6.模式估计:根据某种兴趣度度量,识别代表知识的真正有趣的模式 7.知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识 1.2数据仓库与数据库有什么异同? 数据库与数据仓库的主要区别在于数据集的大小和对数据的处理方式。 数据库处理数据的主要方法是操作型处理,即联机事务处理OLTP(On-Line Transaction Processing),也可以称为面向交易的处理系统,它是针对具体业务在数据库联机的日常操作,通常对少数记录进行查询和修改。用户较为关心操作的响应时间

《Python数据分析与挖掘实战》第八章学习-关联规则Apriori

元气小坏坏 提交于 2019-11-30 18:23:41
《Python数据分析与挖掘实战》这本书其实已经在暑假结束的时候就已经基本上过了一遍,但是却一直没有坚持着记录。最近几天想着将之前的学习内容整理一遍,因此,再做记录。 全文分为以下三个部分: Apriori算法 Apriori的python实现 总结 Apriori算法 首先先对Apriori算法的理论知识进行梳理。由于《Python数据分析与挖掘实战》主要针对实战,因此,对理论部分阐述并不多,本文理论知识主要来自于《数据挖掘概念与技术》。 频繁模式、项集和关联规则 频繁模式 是频繁地出现在数据集中的模式(如项集、子序列或子结构)。例如,频繁地同时出现在交易数据集中的商品(如牛奶和面包)便是一个频繁项集,而频繁地出现在购物数据库中的序列数据(比如先买PC,再买数码相机,再买内存卡)则是频繁子序列。 项集是项的集合 ,包含k个项的项集称为k项集,如I={ i 1 , i 2 , … … , i m //--> }就是一个m项集。 关联规则 指的是,项集中每个元素频繁关联或同时出现的模式。具体的,设I={ i 1 , i 2 , … … , i m //--> }是项的集合,则关联规则是形如A=>B的蕴涵式,其中A和B都是I的子集,且A、B都不为空,A、B的交集为空。 比如,下例表示的就是购买计算机之后又同时购买财务管理软件的关联规则。 支持度、置信度、频繁项集和强关联规则