哈罗,温克勒距离哈罗,温克勒距离维基百科,自由的百科全书(重定向自哈罗,温克勒)跳转到:导航,搜索在哈罗,温克勒距离(温克勒,1999年)是两个字符串之间的相似性措施。这是一个距离度量的哈罗(哈罗,1989年,1995年)和主要在记录之间的联系(重复检测)地区使用的变体。较高的两个字串的哈罗,温克勒的距离,越类似的字符串。在哈罗,温克勒距离度量的设计和最适合短字符串,如人名。比分是正常化,这样等于没有相似0和1是完全匹配。内容[隐藏]•1定义•2例•3参见•4参考资料•5外部链接[编辑]定义哈罗距离的的DJ的两个指定字符串中一和中二是其中:•米是匹配的字符数(见下文);•?是对换的号码(见下文)。两名分别来自中一和中二的字符,被认为是匹配的,只有他们不是做得比。每个字符中一中二比所有的匹配字符。该匹配(人数,但不同的序列排列)除以2字符定义了换位数目。例如。在比较微量板条箱,我们所有的字母匹配,但他们在不同的顺序。通过交换的ç和吨,我们可以把板条箱成微量元素。这样的两个元素互换称为换位。在德韦恩与杜安匹配的字母顺序已经在国家统计局,所以没有换的需要。哈罗,温克勒距离大规模p使用前缀赋予更有利的评级从字符串前缀长度为一组开始比赛。给定两个串中一和中二,它们的哈罗,温克勒距离德国之声是:其中:•道琼斯是字符串中一和中二的距离哈罗•是共同的前缀长度的字符串开始到最高的4个字符•p是一个多大的成绩不断向上调整比例因子为具有共同的前缀。,哈罗,温克勒的距离,其实并不是在这个词的数学意义上的指标。[编辑]范例请注意,温克勒的“参考的”C代码中至少有两个来自哈罗,温克勒度量公布的结算方式不同。首先是他的一个错字表(adjwt使用),还有一些可选的长串额外宽容。由于字符串中一的玛莎和S2的MARHTA我们发现:•米=6•|中一|=6•|S2的的|=6•有不匹配的字符是T/H的和的H/吨,导致我们找到一个哈罗评分:若要查找哈罗,,我们继续寻找:因此:德国之声=+(3*(1-))=:•米=4•|中一|=6•|S2的的|=5•吨=0我们找到一个哈罗评分:若要查找哈罗,,我们继续寻找:因此:德国之声=+(1*(1-))=:Ð我xO的的ñÐ第10000我01000ç00000参数参数K00000S0的的0000Ø00010ñ00001x0处的0000•米=4请注意,这两个X的不匹配,因为他们认为外面的三匹配窗口中。•|中一|=5•|S2的的|=8•吨=0我们找到一个哈罗评分:若要查找哈罗,温克勒评分使用标准体重Ð=,我们继续寻找:•因此:德国之声=+(2*(1-))=[编辑]•莱文斯坦距离•记录挂钩•普查[编辑]•哈罗,肌肉萎缩症(1989年)。“以创记录的进展联系起来的方法适用于佛罗里达州的坦帕市1985年人口普查”。美国统计学会杂志84(406):414-20。•哈罗,肌肉萎缩症(1995年)。“大型公共健康数据文件的概率之间的联系”。医学统计14(5-7):491-8。个人主页:。结论7792443。•温克勒之际,大肠杆菌(1999)。他说:“当前记录的联系和研究问题的国家”。统计司的收入,国内税收署出版R99/04。。•温克勒之际,大肠杆菌(2006)。“联动的记录和当前的研究方向概述”。研究报告系列,转播系统。。[编辑]外部链接•实施及在爪哇LingPipe文件。。•-原始ç实现了该算法的作者•中•PHP中的执行情况,“e”分类:算法对字符串|字符串相似度措施以下这篇文章来自ll/,谢谢~概述包一类树不推荐指数帮助上一个类下一个类框架无框架所有类的所有类摘要:嵌套|字段|构造方法|详细信息:字段|构造方法|...:距离<CharSequence>,接近<CharSequence>________________________________________公共类JaroWinklerDistance扩展对象实现远程<CharSequence>,接近<CharSe
哈罗,温克勒距离 来自淘豆网m.daumloan.com转载请标明出处.