相似度计算及其在数据挖掘中的应用.doc相似度计算及其在数据挖掘中的应用摘要:相似度是描述两个对象之间相似程度的一种度量,依据对象不同,相似度计算方法亦不同。相似度计算被广泛应用于数据挖掘算法中,它是对象分类的基础。该文将数据对象划分为数值型、非数值型和混合型三种,并根据数据对象的类型,探讨了相应的相似度计算方法,最后,通过实例描述了相似度计算在数据挖掘中的应用。关键词:对象;相似度计算;数据挖掘;数据类型中图分类号:TP391文献标识码:A文章编号:1009-3044(2016)13-0014-04Abstract:TheSimilarityisameasureofsimilaritybetweentwoobjects,accordingtodifferentobjects,,,thedataobjectsweredividedintothreekinds:numerictype,non-,:object;similaritycalculation;datamining;datatype伴随数据挖掘技术的应用领域发展,对象之间的相似性计算已成为一个非常重要的研究课题。相似度度量是衡量对象间相互关系强弱、联系紧密程度的重要手段。在数据挖掘的方法中,诸如数据分类和预测[1-2]、数据聚类[1-2]、关联分析[1-2]、序列模式[1-2]、依赖关系与依赖模型[1-2]、异常检测和趋势分析[1-2]等都离不开对象之间的相似度分析。尤其是在考察对象间同异度关系时,相似度度量和计算方法将直接影响最终的数据挖掘结果,相似度计算又是衡量对象间差异的基础,在分类应用中,相似度计算是分类的依据。因而,依据不同的实际应用和数据对象,研究相似度计算方法,对数据分类有重要意义。首先描述了相似度概念,进而将数据对象分为三种类型:数值型、非数值型和混合型,然后按不同数据对象分别给出了相应的相似度计算公式,最后通过实例对相似度计算进行了说明。1相似度概念在数据挖掘、模式识别和机器学习等计算机应用领域中,两个对象的相似度是描述这两个对象之间相似程度的一种度量,两者越相似,它们的相似度就越高,相似度是一个非负数值,其值介于0和1之间[2]。数据挖掘的很多算法都涉及计算对象间的相似度,相似度计算方法依赖于数据对象的类型,数据对象的类型不同其相似度计算方法不同。例如,数值型数据的相似度可用欧氏空间的距离来描述其邻近程度;两个标称型数据对象的相似度与用来计算相似度的属性的值域有关。依据参与相似度计算的数据类型,本文将数据对象分为数值型、非数值型和混合型[1-2]三种。,即两个不同数值之间有无穷多个数值。使用实数或度量衡单位计量相似度值,如温度、身高等。数值型量可分为区间标度量和比例标度量,其中区间标度量是一个线性的标度量,而比例标度量一般是非线性的。、而非定量的数据。如人的性别,成绩优良等级等。通常这类对象属性的取值可通过有限个状态(字母/序数)来描述。非数值型数据又可分为标称型、二元和序数型数据等。标称型数据之间是无序的,序数型是有序的。。。:是一个粗略线性标度的连续量,这种量的值是有序的,可以为正数、负数或0。典型的例子有重量、高度、大气温度等。具体计算时,区间型数据的相似度通常转换成相异度计算。常用的计算方法是先将这种量标准化,消除度量单位对分析结果的影响,然后,采用距离来计算对象间的相异度。距离是一个非负数,距离的大小代表着2个对象之间的差异程度,距离越大,2个对象相异度就越大,距离越小,2个对象之间的相似度越高。这里给出常见的相异度计算方法[3]。设p=(p1,p2,…,pn)T,q=(q1,q2,…,qn)T为N维空间中的两个对象,pi是对象p对应的第i个属性所取的值,是对象P的所有属性值的平均值。qi是对象q对应的第i个属性所取的值,是对象q的所有属性值的平均值。曼哈顿、欧氏和闵可夫
相似度计算及其在数据挖掘中的应用 来自淘豆网m.daumloan.com转载请标明出处.