TRS垂直搜索引擎白皮书.doc让内容创造价值
TRS垂直搜索引擎白皮书
北京拓尔思(TRS )信息技术有限公司
2006年8月
TRS垂直搜索引擎白皮书
第2页
一什么是垂直搜索引擎? 3
政府相关的垂直搜索引擎 3
企业相关的垂集方式看,互联网搜索以被动方式为主,搜索引擎和被采集的网页没有约定的、
标准的格式;企业搜索以主动方式为主,被采集的办公文档、 CRM和ERP中的数据等都和
企业搜索引擎有着约定好的采集接口和安全接口;垂直搜索则采用被动和主动想结合的方 式,通过主动方式,有效采集网页中标引的元数据,整合上下游网页资源或者商业数据库,
提供更加准确的搜索服务。 女口:中华人民共和国中央人民政府网站垂直搜索引擎, 它通过规
范副省级政府门户网站网页的表达方式, 达到有效采集网页元数据的目的, 为企业和个人提 供更精准的政务信息搜索服务。
TRS垂直搜索引擎白皮书
第5页
从采集深度、动态网页采集的优先级、结构化数据库信息采集来看,互联网搜索采用
广度为先的策略,所以对采集深度要求不高,而垂直搜索和企业搜索需要挖掘出行业内所有 相关的网页信息,所以往往采用深度为先的策略, 同时由于行业内的一些有商业价值的信息
采用动态发布的方式,如:企业数据库、供求信息等,所以垂直搜索对动态网页的采集优先 级别较高。在实际应用中,垂直搜索和企业搜索都需要集成和采集关系数据库中的结构化信 息,如:垂直搜索中政府需要集成法律法规库、企业搜索中需要采集 ERP、CRM中的信息
等。
信息加工:非结构化信息结构化是垂直搜索的特色
垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取
加工,也就是将网页的非结构化数据抽取成特定的结构化信息数据, 好比网页搜索是以网页
为最小单位,而垂直搜索是以结构化数据为最小单位。
垂直搜索的结构化信息提取和加工主要包括两种: 网页元数据的提取,包括标题、作者、
发表时间、版权所有等等;内容中结构化实体信息的提取,包括人名、地名、组织机构名、 电话号码等等。这些数据存储到数据库中,进行进一步的加工处理,如:去重、分类等,最 后分词、索引再以搜索的方式满足用户的需求。
目前,从垂直搜索的应用情况看, 大部分垂直搜索的结构化信息提取都是依靠手工、 半
手工的方式来完成的,面对互联网的海量信息,很难保证信息的实时性和有效性, 对智能化
的结构化信息提取技术的需求非常迫切。 但因目前国内非结构化信息的智能提取技术取得了
重大进展,在一些领域得到了有效应用,因此智能化成为了垂直搜索引擎的发展趋势。
信息检索:结构化和非结构化相结合的检索方式
从信息检索看, 垂直搜索引擎不但能够对网页信息中的结构化信息进行检索, 而且能
够提供结构化和非结构化信息相结合的检索方式。比如我们找工作关注的:职位信息: 软
件工程师;公司名称:软件公司;地点:北京海淀。
从检索结果的排序方式看,互联网搜索主要通过 PageRa nk算法来实现;企业搜索大多
TRS垂直搜索引擎白皮书
第6页
采用检索内容和检索词的相关度来实现; 而垂直搜索的排序需求更加多样化, 女口:按时间排
序、按相关度排序、按某个结构化字段排序(如:购物搜索中的按价格排序等等) 。
三垂直搜索引擎的应用价值
垂直搜索引擎在政府门户中的应用价值
整合政务资源,有效提升政务资源价值
门户技术中的“网站群技术”和“全文检索技术“有效的整合了行政领导关系比较紧密 地部门内部的信息资源,垂直搜索技术则有效整合了行政领导关系比较松散地机构间的信息 资源,使得政务信息资源的聚拢和整合得以最大化, 政务资源的可挖掘能力得到提高, 从而
有效地提升了政务资源的价值。
一站式检索和导航服务,提高政府门户的公众服务水平
面对多如繁星的政府门户网站,用户查询信息和网上办事时往往无所适从,政务垂直搜
索引擎的建设恰恰解决了这个问题, 用户可以通过搜索引擎的各种检索方式, 方便的获取过
去需要访问多个网站才能查全的信息, 同时也可以通过检索获取网上办事的入口, 例如:在
央网搜索引擎的规划中将继续开发服务搜索这个模块, 通过检索您就可以轻松获取副部级网
站上的办事链接网址。 一站式检索和导航服务, 大大方便了市民和企业, 提高了政府门户网 站的服务水平。
政治体制改革环境下,“凝聚”组织机构的有效手段
市场格局的变化,按照“大社会、小政府”的思维模式,政府介入微观经济领域越来越
少,国家各个行业的部分机构由事业型机构转为企业。 部委和下面的机构之间已经没有了行
政领导只能,但是业务上还是存在千丝万缕的联系, 两者还存在业务指导关系, 垂直搜索引
擎则将两者有效的“凝聚在
TRS垂直搜索引擎白皮书 来自淘豆网m.daumloan.com转载请标明出处.