下载此文档

机器学习相似度度量.ppt


文档分类:IT计算机 | 页数:约37页 举报非法文档有奖
1/37
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/37 下载此文档
文档列表 文档介绍
机器学习相似度度量
现在学习的是第1页,共37页
目录
相似性度量
主要相似度度量算法
度量学习
部分算法实践
机器学习相似度概述
流形学习
现在学习的是第2页,共37页
相似性度量
换次数。例如字符串“1111”与“1001”之间的汉明距离为2。汉明距离就是表示X,Y取值不同的分量数目。
只适用分量只取-1或1的情况。
主要相似度算法
机器学习相似度概述
现在学习的是第15页,共37页
杰卡德相似系数 & 杰卡德距离
卡德距离:是与杰卡德相似系数相反的概念,杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。杰卡德距离可用如下公式表示:
杰卡德相似系数: 两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。杰卡德相似系数是衡量两个集合的相似度一种指标。
主要相似度算法
机器学习相似度概述
现在学习的是第16页,共37页
杰卡德相似系数 & 杰卡德距离
例如,A(0,1,1,0)和B(1,0,1,1)。我们将样本看成一个集合,1表示集合包含该元素,0表示集合不包含该元素。
p:样本A与B都是1的维度的个数
q:样本A是1而B是0的维度的个数
r:样本A是0而B是1的维度的个数
s:样本A与B都是0的维度的个数
那么样本A与B的杰卡德相似系数可以表示为:
此处分母之所以不加s的原因在于:
对于杰卡德相似系数或杰卡德距离来说,它处理的都是非对称二元变量。非对称的意思是指状态的两个输出不是同等重要的。
主要相似度算法
机器学习相似度概述
现在学习的是第17页,共37页
余弦相似度
余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。
主要相似度算法
机器学习相似度概述
现在学习的是第18页,共37页
调整余弦相似度
余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感,因此没法衡量每个维度上数值的差异。需要修正这种不合理性,就出现了调整余弦相似度,即所有维度上的数值都减去一个均值。
用户对内容评分,按5分制,X和Y两个用户对两个内容的评分分别为(1,2)和(4,5),,两者极为相似。但从评分上看X似乎不喜欢两个这个内容,而Y则比较喜欢。比如X和Y的评分均值都是3,那么调整后为(-2,-1)和(1,2),再用余弦相似度计算,得到-,相似度为负值并且差异不小,但显然更加符合现实。
主要相似度算法
机器学习相似度概述
现在学习的是第19页,共37页
皮尔森相似度
|调整余弦相似度|<=|皮尔森相似度|
主要相似度算法
机器学习相似度概述
现在学习的是第20页,共37页
斯皮尔曼相关
斯皮尔曼相关性可以理解为是排列后(Rank)用户喜好值之间的Pearson相关度。
皮尔曼相关度的计算舍弃了一些重要信息,即真实的评分值。但它保留了用户喜好值的本质特性——排序(ordering),它是建立在排序(或等级,Rank)的基础上计算的。
主要相似度算法
机器学习相似度概述
现在学习的是第21页,共37页
度量学习
机器学习相似度概述
现在学习的是第22页,共37页
度量学习
现有的大部分算法对图像进行特征提取后化为向量的表达形式,其本质是把每一幅用于训练的图像通过某种映射到欧氏空间的一个点,并利用欧氏空间的良好性质在其中进行学习器的训练。但定义图像特征之间的欧氏距离未必能很好反映出样本之间的相似。通过训练样本寻找一种能够合理描述当前样本相似度的距离度量,能够大大提高学习器的性能。
度量学习是机器学样本或结合未标记样本,寻找一个能够在给定指标下最恰当刻画样本相似度的距离矩阵或距离函数。
度量学习
机器学习相似度概述
现在学习的是第23页,共37页
度量学习
度量学习包括监督度量学习和半监督度量学习。
监督度量学习主要是利用标注样本学习一个反映样本语义关系的度量函数,使语义上相近的样本之间距离较近,反之则较远。
半监督度量学习则是利用了标注样本,也利用了未标注样本。
度量学习
机器学习相似度概述
现在学习的是第24页,共37页
监督度量学习
利用携带标注信息的训练数据进行距离度量学
习,能更好的降低“语义鸿沟”的影响。
监督的距离度量学习的主要思想是,利用标注数据学习一个度量矩阵,对样本进行映射变换,使得在变换后的度量空间中,同类样本之间的距离变小,异类样本之间的距离变大,或使得相似的样

机器学习相似度度量 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数37
  • 收藏数0 收藏
  • 顶次数0
  • 上传人文库新人
  • 文件大小6.65 MB
  • 时间2022-03-15