该【向量的相似度计算常用方法9个 】是由【大于振】上传分享,文档一共【5】页,该文档可以免费在线阅读,需要了解更多关于【向量的相似度计算常用方法9个 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。向量的相像度计算常用方法
相像度的计算简介
对于相像度的计算,现有的几种基本方法都是鉴于向量(Vector)的,其实也就是计算两个向量的距离,距离越近相像度越大。在介绍的场景中,在用户-物件偏好的二维矩阵中,我们能够将一个用户对全部物件的偏好作为一个向量来计算用户之间的相像度,或许将所实用户对某个物件的偏好作为一个向量来计算物件之间的相像度。下边我们详尽介绍几种常用的相像度计算方法。
共8种。。
编写程序实现(这是第一个小练习,希望大家自己着手,java实现)。计算两个向量的相像性:
向量1(,0。45,,0。563,0。2543,0。3465,,0。5402,)
向量2(0。81,0。34,,0。356,0。283,0。655,0。4398,0。4302,)
1、皮尔逊有关系数(PearsonCorrelationCoefficient)
皮尔逊有关系数一般用于计算两个
[—1,+1]之间。
定距变量间联系的密切程度,它的取值在
sx,sy是x和y的样品标准误差。
类名:PearsonCorrelationSimilarity
原理:用来反应两个变量线性有关程度的统计量
范围:[-1,1],绝对值越大,说明有关性越强,负有关对于介绍的意义小。
说明:1、不考虑重叠的数目;2、假如只有一项重叠,没法计算相像性(计算过程被除数有n-1);3、假如重叠的值都相等,也没法计算相像性(标准差为0,做除数)。
该相像度其实不是最好的选择,也不是最坏的选择,不过由于其简单理解,,而且
数据起码在逻辑范围内一定是等间距的数据。Mahout中,为皮尔森有关计算供给了一个扩展,经过增添一个列举种类(Weighting)的参数来使得重叠数也成为计算相像度的影响因子。
2、欧几里德距离(EuclideanDistance)
最先用于计算欧几里德空间中两个点的距离,假定x,y是n维空间的两个点,它们之间的欧几里德距离是:
能够看出,当n=2时,欧几里德距离就是平面上两个点的距离。当用欧几里德距离表示相像度,一般采纳以下公式进行变换:距离越小,相像度越大。
类名:EuclideanDistanceSimilarity
原理:利用欧式距离d定义的相像度s,s=1/(1+d)。
范围:[0,1],值越大,说明d越小,也就是距离越近,则相像度越大。
说明:同皮尔森相像度相同,该相像度也没有考虑重叠数对结果的影响,相同地,Mahout经过增添一个列举种类(Weighting)的参数来使得重叠数也成为计算相像度的影响因子。
3、Cosine相像度(CosineSimilarity)
Cosine相像度被宽泛应用于计算文档数据的相像度:
类名:UncenteredCosineSimilarity
原理:多维空间两点与所设定的点形成夹角的余弦值.
范围:[—1,1],值越大,说明夹角越大,两点相距就越远,相像度就越小。说明:在数学表达中,假如对两个项的属性进行了数据中心化,计算出来的余弦
相像度和皮尔森相像度是相同的,在mahout中,实现了数据中心化的过
程,
中,Mahout供给了UncenteredCosineSimilarity类作为计算非中心化数
据的余弦相像度.
4、Tanimoto系数(TanimotoCoefficient)
Tanimoto系数也称为Jaccard系数,是Cosine相像度的扩展,也多用于计算文档数据的相像度:
类名:TanimotoCoefficientSimilarity
原理:别名广义Jaccard系数,是对Jaccard系数的扩展,等式为
范围:[0,1],完整重叠时为1,无重叠项时为0,越靠近1说明越相像.
说明:办理无打分的偏好数据。
5、曼哈顿距离
类名:CityBlockSimilarity
原理:曼哈顿距离的实现,同欧式距离相像,都是用于多维数据空间距离的测度范围:[0,1],同欧式距离一致,值越小,说明距离值越大,相像度越大。说明:比欧式距离计算量少,性能相对高。
曼哈顿距离公式:
6、马氏距离
7、兰氏距离公式
8、切比雪夫距离公式
第9题为选做题。感兴趣的就做,不感兴趣能够不做。
9、Hausdorffdistance
um
“ma
distanceofapointinasettothenearestpointintheotherset."
Input:
向量的相似度计算常用方法9个 来自淘豆网m.daumloan.com转载请标明出处.