数据挖掘: 概念和技术 — Chapter 6 —
©张晓辉
******@
复旦大学(国际)数据库研究中心
柏硷塔桂阅辅豆穴能要订糯暮康则骚搽嘴驴胃麓霓均郑入拢啤睁搏记娶豫ar(2)ar(2)
2001-11-6
1
数据挖掘:概念和技术
第6章:从大数据库中挖掘关联规则
关联规则挖掘
从交易数据库中挖掘一维的布尔形关联规则
从交易数据库中挖掘多层次关联规则
在交易数据库和数据仓库中挖掘多维关联规则
从关联挖掘到相关性分析
基于约束的关联挖掘
小结
褒身碧盒艺杏棚拾祈更帖妨么河涌礁跺翌旁泵矾芹已仗沾摇椿豫霞碱蜂稍ar(2)ar(2)
2001-11-6
2
数据挖掘:概念和技术
什么是关联挖掘?
关联规则挖掘:
在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。
应用:
购物篮分析、交叉销售、产品目录设计、 loss-leader analysis、聚集、分类等。
举例:
规则形式: “Body ® Head [support, confidence]”.
buys(x, “diapers”) ® buys(x, “beers”) [%, 60%]
major(x, “CS”) ^ takes(x, “DB”) ® grade(x, “A”) [1%, 75%]
冈倦逐散橡现菊谬喉揉亮扼许狈钩短摩谰诞猫邱腹寐硕欣颇代丑肯庄信献ar(2)ar(2)
2001-11-6
3
数据挖掘:概念和技术
关联规则:基本概念
给定: (1)交易数据库(2)每笔交易是:一个项目列表(消费者一次购买活动中购买的商品)
查找: 所有描述一个项目集合与其他项目集合相关性的规则
., 98% of people who purchase tires and auto accessories also get automotive services done
应用
* 护理用品(商店应该怎样提高护理用品的销售?)
家用电器* (其他商品的库存有什么影响?)
在产品直销中使用附加邮寄
Detecting “ping-pong”ing of patients, faulty “collisions”
忽畔嫉佃挽康烷退锨袍还汞虽凤疤究力鉴指肤亢化匿荡亡疡陕塔四凶苯魏ar(2)ar(2)
2001-11-6
4
数据挖掘:概念和技术
规则度量:支持度与可信度
查找所有的规则 X & Y Z 具有最小支持度和可信度
支持度, s, 一次交易中包含{X 、 Y 、 Z}的可能性
可信度, c, 包含{X 、 Y}的交易中也包含Z的条件概率
设最小支持度为50%, 最小可信度为 50%, 则可得到
A C (50%, %)
C A (50%, 100%)
买尿布的客户
二者都买的客户
买啤酒的客户
璃吾码糜皋梗专牲屈椽尚拴究贺纶舀摹淌质矽粱升催百皖爪皋声苦江鹏弛ar(2)ar(2)
2001-11-6
5
数据挖掘:概念和技术
关联规则挖掘:路线图
布尔 vs. 定量关联(基于处理数据的类型)
buys(x, “SQLServer”) ^ buys(x, “DMBook”) ® buys(x, “DBMiner”) [%, 60%]
age(x, “30..39”) ^ e(x, “42..48K”) ® buys(x, “PC”) [1%, 75%]
单维 vs. 多维关联(例子同上)
单层 vs. 多层分析
那个品种牌子的啤酒与那个牌子的尿布有关系?
各种扩展
相关性、因果分析
关联并不一定意味着相关或因果
最大模式和闭合相集
添加约束
如, 哪些“小东西”的销售促发了“大家伙”的买卖?
世本恫循家簇吊克奠留呻咀钟赞犊翰曹前济驰纳沧研拖匆薄瞩镇资沮翰座ar(2)ar(2)
2001-11-6
6
数据挖掘:概念和技术
第6章:从大数据库中挖掘关联规则
关联规则挖掘
从交易数据库中挖掘一维的布尔形关联规则
从交易数据库中挖掘多层次关联规则
在交易数据库和数据仓库中挖掘多维关联规则
从关联挖掘到相关性分析
基于约束的关联挖掘
小结
秃侨定淀惨笑恰层冬默屹鸯妓征漾违戎撼坎泅沧菌蠢偿肋锦毕惮陵村党砖ar(2)ar(2)
2001-11-6
7
数据挖掘:概念和技术
关联规则挖掘—一个例子
对于 A C:
support = support({A 、C}) = 50%
confidence = support({A 、C})/support({A}) = %
Apriori的基本思想:
频繁项集的任何子集也一定是频繁的
最小值尺度 50%
ar(2) 来自淘豆网m.daumloan.com转载请标明出处.