下载此文档

SOSO论坛开放协议规范.doc


文档分类:办公文档 | 页数:约11页 举报非法文档有奖
1/11
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/11 下载此文档
文档列表 文档介绍
SOSO论坛开放协议规范
SOSO Open BBS Protocol(SOB)
版本
腾讯科技有限公司
协议描述
什么是SOSO论坛开放协议(SOB)
SOSO论坛开放协议(下称SOB),是SOSO合作伙伴直接将论坛格式化数据以XML文件提供给SOSO进行收录,并进行丰富摘要展现的一种数据补充协议。此协议也可以看做是对Sitemap协议的一种扩展,有利于合作伙伴论坛内容更快速地被SOSO收录,并且可以以区别于其他论坛自然检索结果的形式进行更丰富的展现,从而提高被用户点击的机会。
Soso目前版本对论坛帖子可以支持如下图的摘要展现方式,并给出了一条自然摘要结果在下方对比:
SOB协议文件说明

SOB协议文件必须使用GBK编码;
可以采用gzip(.gz)格式来压缩SOB件
SOB文件未压缩前目前最大只支持单个文件2MB
一个SOB文件中包含的Url不能超过50000个,实际支持的Url数目因文件总大小2MB限制可能更少;
SOB中的Url必须是xml安全的(URL's must be XML Safe (use XMLFormat())
SOB文件除了提供帖子主题Url,还需要提供该帖子主题下的一些属性字段,属性字段标签参考后面表格的标签定义,注意需包含全部的必须字段才可以被正常收录;其余非必须字段可以不产生该标签或置空或填为默认值,注意强烈建议字段希望能根据站点的情况尽量填写,这些字段将会影响到帖子在检索结果的展现方式或相关性排序;
SOB文件可以直接提供帖子的正文(可以包含回贴,建议提供前3个回帖),这样可以加速Soso对帖子的收录和展现速度,但注意单个SOB文件2MB的限制适当减少单个文件中的Url个数;正文标签<content>参考后面表格的标签定义,如果不提供正文,Sosospider会根据Url进行下载;
SOB文件不提供单独回帖的Url和属性作为一个item;
每个SOB文件列出在最近一段时间发生过更新的帖子数据,比如最近一段时间产生过新的回复,则将该主题Url下的数据放入最近的SOB文件中;如果有其他属性改变,比如产生新的点击(如果数据量较大可以选择对点击数新增比较多的进行更新)、新的精华贴、置顶贴等,这些属性需要Soso的索引进行更新,也可以放入最近的SOB文件中;注意发生更新后的数据不仅需要提供产生更新的字段,而是要提供如新贴一样的所有字段信息,比如主贴正文、主题发布时间等,Soso会对索引中的全部字段进行更新;
如果在最近时间段内某些主题Url失效,比如帖子被删除、或希望在Soso检索结果进行屏蔽,则也可以将该主题Url数据放入SOB文件,并置<displayStatus>标签为非0,具体值参考后面表格的标签定义;失效Url数据可以不包含全部必须属性字段;
SOB的文件名建议为若干个固定文件反复使用,、、,建议最少一天进行一次SOB数据更新,如数据需更快被Soso收录则可以加快数据生成的频率,将最近新出现的帖子或有更新的帖子更新到一个或多个SOB文件中去;SOB文件只要保留有最近一段时间的数据即可,对于较老数据(如一周前或一个月前)的数据,sosospider应该基本已经收录,可以从SOB文件中删除,这样也可以保证SOB文件的个数不会太多;
SOB文件一旦被更新,需同时更新SOB索引文件,数据才可以及时被Soso发现并收录;SOB索引文件是论坛对Sosospider的数据入口,格式定义参考后面的描述;每次SOB文件更新后,需要在SOB索引文件中描述最近发生更新的SOB文件以及对应更新时间,sosospider会反复访问sob-index文件,找到最近有更新的SOB文件进行抓取。
【特别提示】为了更好满足用户的期望,建立合作方论坛的口碑,请您推送健康、有效、权限公开(非登录态也可见)的帖子内容。同时,请合作方自觉滤除广告、敏感、违禁内容,及时更新SOB文件,让信息更好、更及时地向用户展现!
SOB标签说明
标签
等级
说明
<sob>
根节点
SOB文件最顶层的标签,SOB文件中的其它标签都必须包含在该标签内部
<url>
数据父节点
<sob>的子节点,下面其他标签的父节点,一个帖子主题下的全部属性标签必须包含在该标签内部
<loc>
必须字段
帖子主题的Url地址,注意回帖和翻页地址不用提供
<subject>
必须字段
帖子主题标题
<createdTime>
必须字段
帖子主题发布时间,格式为yyyy-mm-dd hh:mm:ss
<lastPostedTime>
必须字段
帖子最后回复时间,格式为yyyy-mm-d

SOSO论坛开放协议规范 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数11
  • 收藏数0 收藏
  • 顶次数0
  • 上传人165456465
  • 文件大小263 KB
  • 时间2018-07-28