下载此文档

电商搜索和新闻推荐用户画像近实时更新final.pptx


文档分类:办公文档 | 页数:约30页 举报非法文档有奖
1/30
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/30 下载此文档
文档列表 文档介绍
电商搜索和新闻推荐用户画像 --近实时更新 王成光 2016-7-10
电商搜索和新闻推荐用户画像实时更新
电商搜索
基本组成
相关实现技术
新闻推荐用户画像
用户画像组成
用户画像实时更新流程
实时计算: Storm/ 。对中文支持不好,性能也相对较差。
2016-7-10
8
电商搜索技术--ES集群
2016-7-10
9
电商搜索技术--SolrCloud集群
2016-7-10
10
电商搜索技术--ES 和 Solr综合比较
特性
ES
Solr/SolrCloud
索引
1.

(7612k)
1.
2. 更新2万新插入8万耗时24秒
(5280K)
shard中doc数
差异大
比较匀称
查询
返回10万条数据大概15毫秒
返回10万条数据大概29毫秒
健壮性
比较强
相对弱
容错性
比较强
相对弱
中文分词支持
动态添加专有词
支持度不好
无模式
实时索引
与生俱有
后期增加
2016-7-10
11
电商搜索技术--ES 和 Solr近年发展
2016-7-10
12
电商搜索技术--ES 和 Solr近年发展
2016-7-10
13
电商搜索技术——
ES集群节点新增部落节点
API级显示支持文档字段级更新

Aggregation功能增强,支持嵌套。


得到查询的详细分析信息,它可以让你了解和调试查询性能。查询的每一部分都独立的记录了统计时间
:
几乎重写,增加50%的入库效率, 提高20-50%的查询效率

2016-7-10
14
新闻推荐用户画像实时更新
用户画像基本组成
内容体系分类
更新周期分类
用户画像实时更新流程
流式分布式实时计算
Strom
SparkStreaming
Light_drtc (原创:)
2016-7-10
15
用户画像基本组成—内容分类
百度数据开放平台大数据用户画像标签体系
2016-7-10
16
用户画像基本组成—更新周期分类
依据属性变化频繁程度:
静态标签
相对短时间内变化不大的信息,主要指地域、年龄、性别、文化、 职业、收入、
生活习惯、消费习惯等人口属性和商业属性等
动态标签
用户不断变化的行为信息,主要指产品类别、活跃频率、产品喜好、
产品驱动、使用习惯、产品消费等产品行为,在互联网上,用户行为,
可以看作用户动态信息的唯一数据来源等
依据更新时间长短:
长期兴趣标签:更新频率一般为数小时或天
短期兴趣标签:更新频率一般为分钟级或秒级
2016-7-10
17
用户画像计算相关算法
内容相似
Jaccard |S ∩ T|/|S ∪ T|
余弦定理

修正余弦
皮尔逊相关系数
2016-7-10
18
用户画像计算相关算法
关联规则
支持度(Support),表示项集{X,Y}在总项集里出现的概率。
公式为:Support(X→Y) = P(X,Y) / P(I) = P(X∪Y) / P(I) = num(XUY) / num(I)
置信度 (Confidence),置信度表示在先决条件X发生的情况下,由关联规则“X→Y”推出Y的概率。即在含有X的项集中,含有Y的可能性。
公式为:Confidence(X→Y) = P(Y|X) = P(X,Y) / P(X) = P(XUY) / P(X)
提升度(Lift),提升度表示含有X的条件下,同时含有Y的概率,与不含X的条件下却含Y的概率之比。
公式为: Lift(X→Y) = P(Y|X) / P(Y)
强关联规则:满足最小支持度和最小置信度的规则。
如果Lift(X→Y)>1,则规则“X→Y”是有效的强关联规则。
如果Lift(X→Y) <=1,则规则“X→Y”是无效的强关联规则。
特别地,如果Lift(X→Y) =1,则表示X与Y相互独立。
2016-7-10
19
用户画像计算相关算法
协同过滤:基于user协同过滤和基于item协同过滤
2016-7-10
20
用户画像计算相关算法
主题模型
逻辑回归

电商搜索和新闻推荐用户画像近实时更新final 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数30
  • 收藏数0 收藏
  • 顶次数0
  • 上传人wz_198613
  • 文件大小4.51 MB
  • 时间2022-07-13