SOSO论坛开放协议规范
SOSO Open BBS Protocol(SOB)
版本
腾讯科技有限公司
协议描述
什么是SOSO论坛开放协议(SOB)
SOSO论坛开放协议(下称SOB),是SOSO合作伙伴直接将论坛格式化数据以XML文件提供给SOSO进行收录,并进行丰富摘要展现的一种数据补充协议。此协议也可以看做是对Sitemap协议的一种扩展,有利于合作伙伴论坛内容更快速地被SOSO收录,并且可以以区别于其他论坛自然检索结果的形式进行更丰富的展现,从而提高被用户点击的机会。
Soso目前版本对论坛帖子可以支持如下图的摘要展现方式,并给出了一条自然摘要结果在下方对比:
SOB协议文件说明
SOB协议文件必须使用GBK编码;
可以采用gzip(.gz)格式来压缩SOB件
SOB文件未压缩前目前最大只支持单个文件2MB
一个SOB文件中包含的Url不能超过50000个,实际支持的Url数目因文件总大小2MB限制可能更少;
SOB中的Url必须是xml安全的(URL's must be XML Safe (use XMLFormat())
SOB文件除了提供帖子主题Url,还需要提供该帖子主题下的一些属性字段,属性字段标签参考后面表格的标签定义,注意需包含全部的必须字段才可以被正常收录;其余非必须字段可以不产生该标签或置空或填为默认值,注意强烈建议字段希望能根据站点的情况尽量填写,这些字段将会影响到帖子在检索结果的展现方式或相关性排序;
SOB文件可以直接提供帖子的正文(可以包含回贴,建议提供前3个回帖),这样可以加速Soso对帖子的收录和展现速度,但注意单个SOB文件2MB的限制适当减少单个文件中的Url个数;正文标签<content>参考后面表格的标签定义,如果不提供正文,Sosospider会根据Url进行下载;
SOB文件不提供单独回帖的Url和属性作为一个item;
每个SOB文件列出在最近一段时间发生过更新的帖子数据,比如最近一段时间产生过新的回复,则将该主题Url下的数据放入最近的SOB文件中;如果有其他属性改变,比如产生新的点击(如果数据量较大可以选择对点击数新增比较多的进行更新)、新的精华贴、置顶贴等,这些属性需要Soso的索引进行更新,也可以放入最近的SOB文件中;注意发生更新后的数据不仅需要提供产生更新的字段,而是要提供如新贴一样的所有字段信息,比如主贴正文、主题发布时间等,Soso会对索引中的全部字段进行更新;
如果在最近时间段内某些主题Url失效,比如帖子被删除、或希望在Soso检索结果进行屏蔽,则也可以将该主题Url数据放入SOB文件,并置<displayStatus>标签为非0,具体值参考后面表格的标签定义;失效Url数据可以不包含全部必须属性字段;
SOB的文件名建议为若干个固定文件反复使用,、、,建议最少一天进行一次SOB数据更新,如数据需更快被Soso收录则可以加快数据生成的频率,将最近新出现的帖子或有更新的帖子更新到一个或多个SOB文件中去;SOB文件只要保留有最近一段时间的数据即可,对于较老数据(如一周前或一个月前)的数据,sosospider应该基本已经收录,可以从SOB文件中删除,这样也可以保证SOB文件的个数不会太多;
SOB文件一旦被更新,需同时更新SOB索引文件,数据才可以及时被Soso发现并收录;SOB索引文件是论坛对Sosospider的数据入口,格式定义参考后面的描述;每次SOB文件更新后,需要在SOB索引文件中描述最近发生更新的SOB文件以及对应更新时间,sosospider会反复访问sob-index文件,找到最近有更新的SOB文件进行抓取。
【特别提示】为了更好满足用户的期望,建立合作方论坛的口碑,请您推送健康、有效、权限公开(非登录态也可见)的帖子内容。同时,请合作方自觉滤除广告、敏感、违禁内容,及时更新SOB文件,让信息更好、更及时地向用户展现!
SOB标签说明
标签
等级
说明
<sob>
根节点
SOB文件最顶层的标签,SOB文件中的其它标签都必须包含在该标签内部
<url>
数据父节点
<sob>的子节点,下面其他标签的父节点,一个帖子主题下的全部属性标签必须包含在该标签内部
<loc>
必须字段
帖子主题的Url地址,注意回帖和翻页地址不用提供
<subject>
必须字段
帖子主题标题
<createdTime>
必须字段
帖子主题发布时间,格式为yyyy-mm-dd hh:mm:ss
<lastPostedTime>
必须字段
帖子最后回复时间,格式为yyyy-mm-d
SOSO论坛开放协议规范 来自淘豆网m.daumloan.com转载请标明出处.