数据挖掘关联分析中的支持度、置信度和提升度
购物篮分析 利用关联分析的方法可以发现联系如关联规则或频繁项集。 二元表示 每一行对应一个事务,每列对应一个项,项用二元变量表示 项在事务中出现比不出现更重要,因此项是非对称的的二元变量。 项集(Itemset):包含0个或多个项的集合,如果包含k个项,则称为k-项集。 事务的宽度:事务中出现的项的个数 一般我们使用三个指标来度量一个关联规则,这三个指标分别是:支持度、置信度和提升度。 Support(支持度):表示同时包含A和B的事务占所有事务的比例。如果用P(A)表示使用A事务的比例,那么Support=P(A&B) Confidence(可信度):表示使用包含A的事务中同时包含B事务的比例,即同时包含A和B的事务占包含A事务的比例。公式表达:Confidence=P(A&B)/P(A) Lift(提升度):表示“包含A的事务中同时包含B事务的比例”与“包含B事务的比例”的比值。公式表达:Lift=( P(A&B)/P(A))/P(B)=P(A&B)/P(A)/P(B)。 提升度反映了关联规则中的A与B的相关性,提升度>1且越高表明正相关性越高,提升度<1且越低表明负相关性越高,提升度=1表明没有相关性。 举例子: 10000个超市订单(10000个事务),其中购买三元牛奶(A事务)的6000个,购买伊利牛奶(B事务)的7500个,4000个同时包含两者。