硕士毕业论文开题报告
二、国内外研究现状
当前的推荐技术主要分为协同过滤推荐、基于关联规则的推荐、、拥有共同经验的群体的喜好来向使用者推荐其感兴趣的物品或信息,可以是利用当前用户与其他用户对部分项目的已知偏好数据来预测当前用户对其他项目的潜在偏好,或者利用用户对当前项目或者其他项目的已知偏好数据来预测其他用户对当前项目的潜在偏好[1];关联规则挖掘是数据挖掘领域中一项重要的课题,它从大量数据中发现物品之间有趣的关联或相关联系。其核心思想是通过对已知数据的挖掘,发现大量数据中所蕴含的,满足一定支持度的规则模式及这些模式间的相互关系[2]。基于内容的推荐方法起源于信息检索和信息过滤的研究,是协同过滤推荐的延伸与发展。该方法对推荐对象进行内容上的挖掘与分析,基于用户历史行为获得用户的兴趣,并向用户推荐在内容上与其兴趣最匹配的物品[3]。混合推荐是将以上推荐方法按照不同的方式进行混合,取长补短,克服各自方法的不足。
个性化推荐技术研究现状
基于用户的协同过滤是个性化推荐中最古老的算法,该方法在1992年被提出,并应用于邮件过滤系统。在最早期的协同过滤推荐系统中,系统需要用户指定兴趣相似的近邻,只有在用户了解彼此间的兴趣爱好之后才能做出推荐因此,只适用于规模较小且相互熟悉的小型用户群(例如同一办公室或研究小组),而不适合于电子商务、互联网这种用户群体庞大且相互陌生的环境[4]。之后出现了以GroupLens为代表的自动化的协同过滤推荐系统[5],它允许用户使用评分等方式表达自己的兴趣偏好信息,系统根据兴趣相似的用户的评分信息为当前活动用户进行个性化推荐。自动化的协同过滤推荐系统不需用户指定相似用户,不需要用户之间相互了解,也不需要分析系统项目的内容,它能够自动寻找兴趣相似的用户,发现用户的潜在兴趣,具有较高的个性化和自动化程度,也正因为此,协同过滤算法受到了广泛关注。但随着用户数的增长以及网站规模的扩大,协同过滤算法出现了许多问题和挑战,诸如稀疏性问题,扩展性问题,冷启动问题等,后期的诸多研究也都是围绕如何解决这些问题展开。
面对稀疏性问题,Sarwar等人提出了基于项目的协同过滤算法,引入了项目间的相似度和矩阵降维技术,他们指出项目间的相似性要比用户间的相似性面临更低的稀疏性问题,而且更加稳定,项目间相似性的计算可以离线进行,可以提高系统的可扩展性[6]。有研究者提出了填充的方式,例如使用固定值填充(一般使用项目平均分或用户平均分)、贝叶斯
分类预测填充等等。但该方法最明显的的缺点是在一定程度上抹煞了用户的兴趣和特征,尤其是在大规模的填充后,更是如此[7]。也有学者提出了引入平滑聚类的方法,使用用户-项目评分矩阵对用户进行聚类,然后,在同类用户中寻找兴趣相似用户,最后给出推荐[8]。但是用户兴趣多样,类别间存在交叉,因此,聚类标准难以确定,最终致使个性化推荐精度较低。
针对可扩展性问题,学者们提出了基于模型的协同过滤算法,其基本思想是在离线状态下建立用户的兴趣模型,在线时使用建好的兴趣模型进行预测推荐,以此做到在线时快速响应的效果,建模中主要使用的算法有贝叶斯网络技术[9],潜在语义技术[10]等。该类方法稳定性较好,实时性较高,可以在一定程度上解决可扩展性问题,但建模花费代价高,一般比较适合于用户兴趣与特征比较稳定的环境,不适用于数据频繁更新的系统,而且它还面临推荐精度较低等问题。
面对协同过滤的冷启动、数据稀疏性、推荐准确性等问题,学者提出了基于内容的推荐方法。
基于内容的推荐方法起源于信息检索和信息过滤的研究,是协同过滤推荐的延伸与发展。该方法对推荐对象进行内容上的挖掘与分析,基于用户历史行为获得用户的兴趣,并向用户推荐在内容上与其兴趣最匹配的物品[11]。该方法的核心在于对推荐对象内容特征的挖掘,并进行基于内容特征和用户行为的兴趣模型的构建。
随着文本信息挖掘技术的日益成熟,目前的研究中以推荐对象为文本的描述为主,基于给定的特定词组的集合,如关键词、属性词或者不限定特定词等,通过统计的方法进行基于文本特征向量的建模。将文本模型与用户兴趣模型进行相似度计算,判断该推荐对象是否符合用户的兴趣。
基于内容的推荐不依赖其它用户的数据,能够准确地捕捉用户的兴趣,推荐效果较精确,能够推荐新出现的推荐对象和非热门对象,解决协同过滤推荐的冷启动和稀疏性问题。随着文本处理技术和信息检索技术的成熟,基于内容推荐方法对于文本类内容的推荐已具有相当的优势。但是其应用也存在着一定的局限性:对于无法通过机器学习规则或难于提取内容特征的内容无法进行有效推荐,如多媒体数据(视频、音频等);无法挖掘用户对推荐对象的真实态度,即默
硕士毕业论文开题报告 来自淘豆网m.daumloan.com转载请标明出处.