频繁项集

python数据挖掘(5.Apriori算法)

六眼飞鱼酱① 提交于 2019-12-10 04:22:23
第一章我们介绍了最基础的亲和性分析,尝试了所有的规则计算了所有的置信度和支持度,但是这个方法效率不高而且我们使用的数据集只有5种商品,但是实际生活中即使是小商店的商品也会超过百种,而网店商品的种类则可能更多,依旧使用第一章的亲和性分析,那么随着商品数量的增加,计算量和计算的时间也会急剧增加,所以需要一个聪明的算法来解决这个问题 Apriori算法 Apriori 算法诗一个景点的亲和性分析算法,他只从数据集中频繁出现的商品中选取共同出现的商品组成 频繁项集 ,避免上述复杂度呈指数级增长的问题,一旦找到了 频繁项集 ,生成关联规则就很容易了。 Apriori算法首先保证规则在数据集中有足够的支持度,最重要的一个参数就是 最小支持度 比如要生成商品A B的频繁项集(A,B)要求支持度至少为30,那么A,B都必须至少在数据集中出现30次,更大的频繁项集也要最受这个约定。 这一章我们通过电影推荐的问题来举例。 数据集地址在文章开头 In [1]: import numpy as np In [2]: import pandas as pd In [3]: all_ratings = pd.read_csv('/Users/gn/scikit--learn/ml-100k/u.data',delim ...: iter="\t", header=None, names = ["UserID"