1、亲和性分析
基本概念: 根据样本个体之间的相似度 支持度support 置信度confident 示例:如果一个人买了商品X,那么他很有可能购买商品Y (本例有两个特征值0和1,表示是否购买) 过程思路: 1、在numpy中加载数据集 numpy是二维数组,看上去像一张表。 数组的每一项为个体的某项特征值。 数据集与文件放在同一目录下 输出前5行数据查看数据集 2、实现简单的排序 找出“如果一个人买了商品X,那么他很有可能购买商品Y”这个规则,就要找出数据集中所有同时购买的两件商品 规则:由前提条件和结论两部分组成 规则常用的衡量方法:支持度和置信度 支持度:在数据集中,规则中条件应验的次数(符合前提条件的数量) P(X) 置信度:规则中条件和结论同时应验的次数/支持度 P(Y|X)=P(XY)/P(X) 统计所有规则的相关数据:规则应验、规则无效、条件相同的规则数量 创建几个字典用于存放计算结果:用defaultdict(如果查找的键不存在,返回一个默认值) 循环结构:依次对样本的每个个体及个体的每个特征值进行检测,看是否满足条件。如果满足,该条件出现的次数加1;不满足,继续检测下一个。 在遍历过程中跳过条件和结论相同的规则(即如果买了X,那么会买X) 如果规则应验,规则应验的次数(即上面创建的字典中的元组)加1 计算每一条规则的支持度和置信度得到字典,支持度就是上面统计的规则应验的次数