下载此文档

Lucene搜索引擎.pdf

文档分类：IT计算机 | 页数：约2页举报非法文档有奖

1/2

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/2 下载此文档

文档列表 文档介绍

计算机工程 2007 年 9 月
第 33 卷第 18 期 rm)的个数，通常情况下，每个索引项就是文档中的语的文档。该列表还会包含一些辅助信息，比如该词或者短
一个单词或者短语。这样，K 维向量中的每一项的值，就是语在文档中出现的次数以及出现的位置等，这些信息会被用
该索引项在这个文档中的权重。权重一般情况下是个大于或来对搜索结果进行排序。这种结构对于“哪些文档中包含单
者等于 0 的值，如果该索引项在该文档中不存在，则权重为词 X”这样的问题能够快速得到搜索结果。例如，典型的反
0，否则权重被赋予一个大于 0 的值。按照这个定义，每个文向列表可表示为 tdin→〈 12,,KK〉 〈d,〉,K,〈d,K〉。
档可以表示为索引文件结构
d = (, ,..., )
j ww1, jj2, wk, j 为了实现高效的索引和检索，就必须具有良好的索引文
其中， wkj, 表示第 k 个索引项在文档 j 中的权重。同理，每个件结构。Lucene 的索引文件包括逻辑结构和物理结构。Lucene
q=( , ,..., ) 的每个索引文件都由一个或者多个片段(segment)组成；每个
查询语句也可以表示成向量 ww1,qq2, wk,q。将文档和用户的
片段都是一个可以被独立检索的模块，包含一定数量的文档
查询语句都表示成向量之后，就可以利用文档向量和查询向
(document)，这里的文档可以是一个 HTML 页面，一个 XML
量之间的相似性来表示文档和查询之间的相关性。为了衡量
文档，或一个 Word 文档。Lucene 的索引文件的逻辑结构如
文档向量和查询向量之间的相似

Lucene搜索引擎来自淘豆网m.daumloan.com转载请标明出处.