下载此文档

大数据存储与处理-推荐系统.ppt


文档分类:IT计算机 | 页数:约78页 举报非法文档有奖
1/78
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/78 下载此文档
文档列表 文档介绍
大数据存储与处理-推荐系统
严格模型
X 用户集
S 项目集
效用矩阵 Utility Matrix
效用函数 Utility function u:
R 评分集 , 完全有序集
例如, 0-5 星, [0,1]之间的实数
x的评分矢量
N: 为对项目 i的评分与用户x最相似的 k 个用户的集合
用户x对项目 s的评分预测
其他方法?
基于项目的协同过滤 Item-Item CF
除了user-user,有另一个角度:item-item
对项目i, 寻找其他相似的项目
根据相似项目的评分估计项目i的评分
可以采用类似 user-user model的相似度测度
26
27
28
29
30
CF:基本操作
定义项目i 和j 的相似度sij
选择k个最近邻居N(i;x)
用户x评价过的最类似i的项目
以加权平均估计评分rxi
31
Item-Item vs User-User
实际中,item-item 比user-user的效果好
原因? Item 更简单,user往往有多重品味
32
CF的优缺点
适合于任何item
不需要特征选择
Cold Start:
需要系统中有足够的用户进行匹配
稀疏性:
ratings 矩阵稀疏 , 难以发现评价过相同项目的用户
第一个评价者
无法推荐一个没有被评价过的项目, 新项目, 隐秘项目
流行度偏差
无法给只有单一口味的用户推荐项目
倾向于推荐流行项目
混合方法
实现两种或多种不同的推荐方法,并组合预测结果
比如用线性组合
将基于内容的方法与CF相结合
建立item profile 解决新item问题
利用人口统计信息解决新用户问题
评估及实际问题
35
36
37
评估预测性能
对比预测值与已知的评分
Root-mean-square error (RMSE)
Precision at top 10
Rank correlation
另一种方法: 0/1 model
覆盖度
系统能够预测的items/users 数量
精确度
预测的精度
受试者工作特征Receiver operating characteristic (ROC)
虚报率 false positives 与漏报率false negatives之间的均衡曲线
错误测度的问题
有时狭隘地关注精度没有意义
Prediction Diversity 预测多样性
Prediction Context 预测情境
Order of predictions 预测顺序
实际上仅仅关注对高分的预测
RMSE 可能会对一个高分预测好低分预测差的方法不利
CF:复杂度
最费时的步骤是找到k个最相似的用户: O(|X|)
无法实时完成
可以预先计算
Naïve pre-computation takes time O(N ·|C|)
大数据处理方法
高维数据中的最近邻居搜索 (LSH)
聚类Clustering
降维Dimensionality reduction
40
潜在因素模型 Latent factor models
41
Netflix Prize
Training data
100 million ratings, 480,000 users, 17,770 movies
6 years of data: 2000-2005
Test data
Last few ratings of each user ( million)
Evaluation criterion: root mean squared error (RMSE)
Netflix Cinematch RMSE:
Competition
2700+ teams
$1 million prize for 10% improvement on Cinematch
42
The Netflix Utility Matrix R
43
Utility Matrix R: Evaluation
44
BellKor Recommender System
Netflix 挑战赛的获胜者
对数据的多尺度建模
全局特征 Global effects
用户/电影的总体偏差
区域特征 Regional effects
Factorization
局域特征 Local pattern
CF
Global effects
Factorization
Collaborative filtering
45
本地及全局特征的模型化
全局
电影的平均评分:

大数据存储与处理-推荐系统 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数78
  • 收藏数0 收藏
  • 顶次数0
  • 上传人核辐射
  • 文件大小5.51 MB
  • 时间2022-09-02
最近更新