下载此文档

Lucene搜索引擎.pdf


文档分类:IT计算机 | 页数:约2页 举报非法文档有奖
1/2
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/2 下载此文档
文档列表 文档介绍
计 算 机 工 程 2007 年 9 月
第 33 卷 第 18 期 rm)的个数,通常情况下,每个索引项就是文档中的 语的文档。该列表还会包含一些辅助信息,比如该词或者短
一个单词或者短语。这样,K 维向量中的每一项的值,就是 语在文档中出现的次数以及出现的位置等,这些信息会被用
该索引项在这个文档中的权重。权重一般情况下是个大于或 来对搜索结果进行排序。这种结构对于“哪些文档中包含单
者等于 0 的值,如果该索引项在该文档中不存在,则权重为 词 X”这样的问题能够快速得到搜索结果。例如,典型的反
0,否则权重被赋予一个大于 0 的值。按照这个定义,每个文 向列表可表示为 tdin→〈 12,,KK〉 〈d,〉,K,〈d,K〉。
档可以表示为 索引文件结构
d = (, ,..., )
j ww1, jj2, wk, j 为了实现高效的索引和检索,就必须具有良好的索引文
其中, wkj, 表示第 k 个索引项在文档 j 中的权重。同理,每个 件结构。Lucene 的索引文件包括逻辑结构和物理结构。Lucene
q=( , ,..., ) 的每个索引文件都由一个或者多个片段(segment)组成;每个
查询语句也可以表示成向量 ww1,qq2, wk,q。将文档和用户的
片段都是一个可以被独立检索的模块,包含一定数量的文档
查询语句都表示成向量之后,就可以利用文档向量和查询向
(document),这里的文档可以是一个 HTML 页面,一个 XML
量之间的相似性来表示文档和查询之间的相关性。为了衡量
文档,或一个 Word 文档。Lucene 的索引文件的逻辑结构如
文档向量和查询向量之间的相似

Lucene搜索引擎 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数2
  • 收藏数0 收藏
  • 顶次数0
  • 上传人q1188830
  • 文件大小105 KB
  • 时间2022-02-24