关联规则

关联规则DHP算法详解

◇◆丶佛笑我妖孽 提交于 2019-12-05 08:00:54
参考文献: [1]Park, J. S., Chen, M. S., & Yu, P. S. (1995). Aneffective hash-based algorithm for mining association rules. Acm SigmodRecord, 24(2), 175-186. [2]潘燕燕. (2012). 关联规则dhp算法的研究与分析. 佛山科学技术学院学报(自然科学版), 30(2), 30-32. 写在前面:上《数据挖掘》这门课的时候,讲关联规则挖掘(Association Rules Mining)的时候,其他几个算法都是简单易懂,符合普通认知规律的。唯有DHP算法是绕了一个小弯。无奈PPT上写的太简略,英文原文也是看得模棱两可。好在,找到了一个中文版的分析,再结合英文版,果然捋得清多了。写在这里,方便自己期末复习。 一、DHP算法的由来 1993 年Agrawal等人首先提出关联规则概念之后关联规则挖掘便迅速受到数据挖掘领域专家的广泛关注。在迄今十几年中,关联规则挖掘技术得到了较为深入的发展。 Apriori算法是关联规则挖掘经典算法,针对该算法的缺点,许多学者提出了改进的算法,主要有基于哈希优化DHP 和基于事务压缩等。 二、DHP算法的过程 1.缩减候选项目集Ck 对于表1 的数据库,算法的条件为:最小支持度为2。哈希函数为:h{ {x,y

中医证型关联规则挖掘

匿名 (未验证) 提交于 2019-12-03 00:22:01
借助患者病理信息,挖掘患者的症状与中医证型之间的关联关系,对治疗提供依据,挖掘潜在证素 采用关联规则算法,挖掘各中医证素与乳腺癌分期之间的关系 步骤: 问卷采集数据,形成原始数据 数据预处理(数据清洗、属性规约、数据交换) 对数据采用关联规则算法,调整参数,训练得到关系模型 结合业务,结果分析,应用实际 (1)数据清洗:对数据进行有效性检查,整理成为原始数据 (2)属性规约:将数据的73个属性取其重要属性,剔除无关属性,最终的属性为: 6种证型得分、分期的属性值 (3)数据变换: 1)属性构造:采用证型系数代替具体单证型的证素得分, 证型系数=该证型得分/该证型总分 2)数据离散化:由于Apriori关联规则无法处理连续型数值变量,需要将原始数据离散化,采用聚类算法将各个证型系数离散化处理,将每个属性聚成4类。 from __future__ import print_function import pandas as pd from sklearn.cluster import KMeans #导入K均值聚类算法 datafile = 'eeeee/chapter4/demo//data/data.xls' #待聚类的数据文件 processedfile = '../tmp/data_processed.xls' #数据处理后文件 typelabel ={ u'肝气郁结证型系数'

关联规则――基于 Python 的 Apriori 算法实现

匿名 (未验证) 提交于 2019-12-02 22:56:40
Apriori 核心思想: 通过连接产生候选项与其支持度,然后通过剪枝生成频繁项集。 关键概念: 项集:项的集合。包含 k 个项的项集称为 k 项集,如{a,s,d}是一个3项集。 支持度:项集A、B同时发生的概率。 最小支持度 :项集在统计意义上的最低重要性。 置信度:项集A发生,则项集B发生的概率。 最小置信度 :关联规则的最低可靠性。 同时满足最小支持度阈值和最小置信度阈值的规则称作 强规则。 项集的支持度计数(绝对支持度):项集的出现频率,即所有包含项集的事务计数。 频繁项集:项集的相对支持度满足预定义的最小支持度阈值 实现步骤: 主要思想:找出存在于事务数据集中的最大的频繁项集,再利用得到的最大频繁项集与预先设定的最小置信度阈值生成强关联规则。 Apriori的性质:频繁项集的所有非空子集也必须是频繁项集。 步骤: 找出所有频繁项集(支持度必须大于等于给定的最小支持度阈值),将连接步和剪枝步互相融合, 最终得到最大频繁项集LK 连接步 :找到 K 项集。 剪枝步 :紧接着连接步,在产生候选项 Ck 的过程中起到减小搜索空间的目的 由频繁项集产生强关联规则 :过程1已 剔除那些 未超过预定的最小支持度阈值的项集 。如果剩下这些规则又 满足了预定的最小置信度阈值 ,那么就挖掘出了强关联规则。 示例: Apriori 算法: #-*- coding: utf-8 -*-

python暗网市场关联规则学习菜篮子分析

蓝咒 提交于 2019-11-30 21:02:51
原文链接: http://tecdat.cn/?p=7318 暗网市场 是一个网上黑市,从2014年1月运行,直到上周的周三,当它 突然消失了 。几天 后 , 一篇reddit帖子中 发布了 包含该网站成立以来的每日wget抓取。我对数据集进行了一些 分析 : 产品可以根据销售者进行分类 在Evolution上,有一些顶级类别(“药品”,“数字商品”,“欺诈相关”等)细分为特定于产品的页面。每个页面包含不同供应商的几个列表。 我根据供应商同现关系在产品之间建立了一个图表,即每个节点对应于一种产品,其边权重由同时出售两种事件产品的供应商数量定义。因此,举例来说,如果有3个供应商同时出售甲斯卡林和4-AcO-DMT,那么我的图在甲斯卡林和4-AcO-DMT节点之间的权重为3。我使用 基于随机块模型的分层边缘 实现来生成以下Evolution产品网络的可视化: importimport pandaspandas asas pdpd importimport graph_toolgraph_t as gt import graph_tool.draw import graph_tool.community import itertools import collections import matplotlib import math In [2]: df = pd.read_csv('

《Python数据分析与挖掘实战》第八章学习-关联规则Apriori

元气小坏坏 提交于 2019-11-30 18:23:41
《Python数据分析与挖掘实战》这本书其实已经在暑假结束的时候就已经基本上过了一遍,但是却一直没有坚持着记录。最近几天想着将之前的学习内容整理一遍,因此,再做记录。 全文分为以下三个部分: Apriori算法 Apriori的python实现 总结 Apriori算法 首先先对Apriori算法的理论知识进行梳理。由于《Python数据分析与挖掘实战》主要针对实战,因此,对理论部分阐述并不多,本文理论知识主要来自于《数据挖掘概念与技术》。 频繁模式、项集和关联规则 频繁模式 是频繁地出现在数据集中的模式(如项集、子序列或子结构)。例如,频繁地同时出现在交易数据集中的商品(如牛奶和面包)便是一个频繁项集,而频繁地出现在购物数据库中的序列数据(比如先买PC,再买数码相机,再买内存卡)则是频繁子序列。 项集是项的集合 ,包含k个项的项集称为k项集,如I={ i 1 , i 2 , … … , i m //--> }就是一个m项集。 关联规则 指的是,项集中每个元素频繁关联或同时出现的模式。具体的,设I={ i 1 , i 2 , … … , i m //--> }是项的集合,则关联规则是形如A=>B的蕴涵式,其中A和B都是I的子集,且A、B都不为空,A、B的交集为空。 比如,下例表示的就是购买计算机之后又同时购买财务管理软件的关联规则。 支持度、置信度、频繁项集和强关联规则