搜索引擎与宝贝搜索不得不说的故事
1
认识淘宝宝贝搜索
买个iphone5!
送女朋友什么裙子好呢?
手机大甩卖!!
连衣裙包邮!!
牛仔裤清仓买一送一!!
……
……
……
……
宝贝搜索
2
数据量大: 8亿
数据更新量大: 2亿/天
查询量大: 3-4亿PV/天
查询准确率要求高——对买家负责,降低查找成本
查询召回率要求高——对卖家负责,让每个宝贝搜索可达
业务逻辑复杂:属性信息远大于倒排信息
宝贝搜索的特点
3
宝贝搜发展史——数据量
4
宝贝搜发展史——查询量
5
宝贝搜索发展史——大事记
C2C宝贝
C2C宝贝
B2C宝贝
C2C宝贝
B2C宝贝
全网购物搜索
一站式购物体验
发现
比较
优惠券
C2C宝贝
B2C宝贝
全网购物搜索
一站式购物体验
发现
比较
优惠券
个性化
协同搜索
6
淘宝搜索架构演变
7
不断增长的搜索
复杂多变的业务
数据量日益增长
庞大的属性信息
频繁地数据更新
灵活的运帷平台
每年痛并快乐着的大促(1111/1212)
——爆发式流量增长和更新量增长
搜索引擎面临的技术挑战
8
关联非引擎服务(UPS、QP、Forest etc.)
多路数据混排(同构数据、异构数据)
搜索结果Rerank
其他各种“异想天开”的业务逻辑
统一服务入口
解决之道——数据聚合层(SP/Agg)
9
Build插件:允许对建索引的原始文档进行加工
分词插件: 控制检索粒度
QRS插件:改写Query定制业务逻辑、改写结果满足业务需求
属性信息定制化:直接使用Attr(price)、简单表达式(price+postage)、插件化()
Scorer插件:特殊的属性信息定制化功能
丰富的配置接口
解决之道——灵活的配置/插件接口
10
搜索引擎与宝贝搜索不得不说的故事 来自淘豆网m.daumloan.com转载请标明出处.