13-14
王灿
数据挖掘
******@.
0703004
大型数据库中的关联规则挖掘
什么是关联规则挖掘?
关联规则挖掘:
从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。
应用:
购物篮分析、分类设计、捆绑销售等
“尿布与啤酒”——典型关联分析案例
采用关联模型比较典型的案例是“尿布与啤酒”的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%~40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。同样的,我们还可以根据关联规则在商品销售方面做各种促销活动。
购物篮分析
如果问题的全域是商店中所有商品的集合,则对每种商品都可以用一个布尔量来表示该商品是否被顾客购买,则每个购物篮都可以用一个布尔向量表示;而通过分析布尔向量则可以得到商品被频繁关联或被同时购买的模式,这些模式就可以用关联规则表示(0001001100,这种方法丢失了什么信息?)
关联规则的两个兴趣度度量
支持度
置信度
关联规则:基本概念
给定:
项的集合:I={i1,i2,...,in}
任务相关数据D是数据库事务的集合,每个事务T则是项的集合,使得
每个事务由事务标识符TID标识;
A,B为两个项集,事务T包含A当且仅当
则关联规则是如下蕴涵式:
其中并且,规则在事务集D中成立,并且具有支持度s和置信度c
基本概念——示例
项的集合 I={A,B,C,D,E,F}
每个事务T由事务标识符TID标识,它是项的集合
比如:TID(2000)={A,B,C}
任务相关数据D是数据库事务的集合
D
规则度量:支持度和置信度
Customer
buys diaper
Customer
buys both
Customer
buys beer
对所有满足最小支持度和置信度的关联规则
支持度s是指事务集D中包含的百分比
置信度c是指D中包含A的事务同时也包含B的百分比
假设最小支持度为50%,最小置信度为50%,则有如下关联规则
A C (50%, %)
C A (50%, 100%)
大型数据库关联规则挖掘(1)
基本概念
k-项集:包含k个项的集合
{牛奶,面包,黄油}是个3-项集
项集的频率是指包含项集的事务数
如果项集的频率大于(最小支持度×D中的事务总数),则称该项集为频繁项集
大型数据库关联规则挖掘(2)
大型数据库中的关联规则挖掘包含两个过程:
找出所有频繁项集
大部分的计算都集中在这一步
由频繁项集产生强关联规则
即满足最小支持度和最小置信度的规则
6、大型数据库中的关联规则挖掘 来自淘豆网m.daumloan.com转载请标明出处.