数据上的关联规则
关联规则挖掘的目标是发现数据项集之间的关联关系或相关关系,是数据挖掘中的一个重要的课题。 先简单介绍一下关联规则挖掘中涉及的几个基本概念: 定义1:项与项集 数据库中不可分割的最小单位信息,称为项目,用符号i表示。项的集合称为项集。设集合I={i1, i2, ..., ik}是项集,I中项目的个数为k,则集合I称为k项集。 定义2:事务 设I={i1, i2, ..., ik}是由数据库中所有项目构成的集合,一次处理所含项目的集合用T表示,T={t1, t2, ..., tn}。每一个包含ti子项的项集都是I子集。 定义3:项集的频数(支持度计数) 包括项集的事务数称为项集的频数(支持度计数)。 定义4:关联规则 关联规则是形如X=>Y的蕴含式,其中X、Y分别是I的真子集,并且X∩Y=Ø。X称为规则的前提,Y称为规则的结果。关联规则反映X中的项目出现时,Y中的项目也跟着出现的规律。 定义5:关联规则的支持度(Support) 关联规则的支持度是交易集中同时包含的X和Y的交易数与所有交易数之比,记为support(X=>Y),即support(X=>Y)=supportX∪Y=P(XY)。支持度反映了X和Y中所含的项在事务集中同时出现的概率。 定义6:关联规则的置信度(Confidence) 关联规则的置信度是交易集中包含X和Y的交易数与所有包含X的交易数之比