下载此文档

数据挖掘整理.ppt


文档分类:管理/人力资源 | 页数:约67页 举报非法文档有奖
1/67
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/67 下载此文档
文档列表 文档介绍
四、数据对象之间的相异度和相似度
1、简单属性的相似度和相异度
假设数据对象只有一个属性,则通常其相似度和相异度可按如下定义。
标称属性的相异度和相似度
d=
0,如果 x=y
1,如果 x y
相异度
相似度:s=1-d
例如,如果只考虑顾客的性别属性,如果都是“男”,则他们的相似度为1,相异度为0.
1、简单属性的相似度和相异度
序数属性的相异度和相似度
d=|x-y|/(n-1),
相异度
相似度:s=1-d
例如,考虑学生的成绩,共分为A、B、C、D四个等级,则n=4,相异度为2/3.
其中n为属性取值的总个数。
1、简单属性的相似度和相异度
区间或比率属性的相异度和相似度
d=|x-y|
相异度
较常用的相似度有:s=1/(1+d),
例如,考虑如下的身高数据
S=1-(d-min_d)/(max_d-min_d)
学生
S1
S2
S3
S4
S5
S6
S7
身高
156
178
166
170
185
168
180
可以计算学生身高的相异度矩阵如下:
学生
S1
S2
S3
S4
S5
S6
S7
身高
156
178
166
170
185
168
180
S1
S2
S3
S4
S5
S6
S7
S1
0
22
10
14
29
12
24
S2
0
12
8
7
10
2
S3
0
4
19
2
14
S4
0
15
2
10
S5
0
17
5
S6
0
12
S7
0
二元属性:属性的值只接受两个值:如真/假,男/女、是/否等,通常用0/1表示。
则S2与S6之间的相异度为10,而相似度为1/11,有min_d=2,max_d=29,因此,也可以定义相似度为1-(10-2)/(29-2)=19/27。
—相似性度量的例子
。二元数据的相似性度量
两个仅包含二元属性的对象之间的相似性度量也称为相似系数。设x和y是两个对象,都由n个二元属性组成。定义如下四个量
f00=x取0且y取0的属性个数
f01=x取0且y取1的属性个数
f10=x取1且y取0的属性个数
f11=x取1且y取1的属性个数

(Simple Matching Coeffient,SMC),定义如下
SMC=
f00+f11
f00+f11+f10+f01
对于类似顾客是否购买某商品这样的非对称二元数据,这个相似系数则难以体现顾客相同的购买行为。Why?
ard 相似系数。
ard ( ard Coeffient,JC)相似系数定义如下
J=
f11
f11+f10+f01
,计算其SMC和J。
x=(1 0 0 0 1 0 1 0 0 1)
y=(1 0 1 0 1 1 0 0 1 1)
解:f00=
3
f01=
3
f10=
1
f11=
3
因此,SMC=6/10,J=3/7
,计算它们的相似系数SMC和J。
商品
面包
啤酒
牛奶


鸡蛋

大米
洋葱
大蒜

x
1
0
1
0
0
0
1
0
0
1
0
y
1
0
1
0
0
0
1
0
0
1
0
商品
纯净水
可乐
水饺
口香糖
牙膏
毛巾
洗面奶
洗发水
面粉
味精
派瓜子
x
1
0
0
1
0
1
0
0
0
0
0
y
0
1
0
1
0
0
0
0
0
0
0
余弦相似度
通常类似于文档—词这样的数据,度量其相似性不能依赖共享0的个数,如果统计0-0匹配,则大多数文档都非常相似,因此同样要忽略0-0匹配。这类数据最常用的相似度之一就是余弦相似度,定义如下
Cos(x,y)=xy/(||x||||y||)
ard系数
ard系数也可以用于文档数据,ard系数,其定义如下:
,分别计算其余弦相似度cos(x,y)和EJ
x= (3 2 0 5 0 0 0 2 0 0)
EJ=xy/(||x||2+||y||2-xy)
y=(1 0 0 3 1 0 6 0 0 1)

数据挖掘整理 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数67
  • 收藏数0 收藏
  • 顶次数0
  • 上传人2072510724
  • 文件大小1.32 MB
  • 时间2018-03-07
最近更新