下载此文档

基于协同过滤和文本相似度的标签推荐及搜索优化.pdf


文档分类:论文 | 页数:约41页 举报非法文档有奖
1/41
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/41 下载此文档
文档列表 文档介绍
河北大学
硕士学位论文
基于协同过滤和文本相似度的标签推荐及搜索优化
姓名:王传豹
申请学位级别:硕士
专业:计算机软件与理论
指导教师:袁方
2011-06
摘要
摘要
当前,社会标注系统成为研究的热点,在该系统中用户可以为自己所上传的资源自
由的添加标签。由于每个用户的知识背景不同,造成了很多标签不能较好的描述标注资
源的内容,甚至有些标签拼写错误,阻碍了其他用户搜索资源。标签推荐的准确性是社
会标注系统顺利推广的重要环节。
在社会标注系统中,用户标注的标签很多不能较好的描述资源内容,影响了资源共
享和分类,也不利于标注系统的更好推广。此外,搜索资源时用户使用的检索词过于模
糊,传统的关键词匹配法不能满足用户需求。为此,本文提出了一种基于协同过滤和文
本相似度的标签推荐及搜索优化方法。对于用户要标注的网页,计算该网页被标注的次
数。如果超过指定阈值,使用协同过滤方法,查找相似用户,将相似用户中标注的标签
总权重较大的推荐给用户,否则,使用文本相似度公式计算相似的网页,将其标注的标
签总权重较大的推荐给用户。但是直接使用余弦相似度公式,不能较好解决标注问题。
本文在相似网页计算过程中对余弦相似度公式进行了改进,考虑了每个单词权重和每个
网页的权重。使用改进的余弦相似度计算相似的网页,能较好的解决上述问题。最后,
本文分析了标签在网页搜索优化中所起的作用。查询词不在网页中时,使用传统的方法
不能得到较好的效果。为此,本文对查找目标网页的公式进行了改进,利用了标签具有
的社会特性。同时考虑了标签标注服从幂律分布的特点,使用取对数的方法减少了计算
误差。
实验表明,与已有标签推荐算法相比,本文提出的算法提高了标签推荐的准确率。

关键词标注系统标签标签推荐网页搜索优化
I
Abstract
Abstract
At present, social tagging system has e the research focus, users can freely add
tags for the uploaded resources in the system. Because each user’s different knowledge
backgrounds, which caused a problem that many tags could not describe the resource properly
and even have some spelling errors. This problem hinder search this kind of resource for other
users. The accuracy of tag mended is an important part of the promotion of social
tagging system.
In the social tagging system, tags of users tagging can not better describe the contents of
the resource, which not only affect the resource sharing and classification, but also not
conducive to promoting better. In addition, using keywords are too vague when users search
for resources, the traditional keyword matching method can not meet the needs of users. For
this, we proposed a tag mendation method based on collaborative filtering and text
similarity and search optimization. For the webpage of users would tagging, calculating the
number of users who have marked the input webpage. If marking times is more than the
threshold, the collaborative filtering method is used. Search users that are simi

基于协同过滤和文本相似度的标签推荐及搜索优化 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数41
  • 收藏数0 收藏
  • 顶次数0
  • 上传人banana
  • 文件大小0 KB
  • 时间2014-03-28