计 算 机 工 程 2007 年 9 月
第 33 卷 第 18 期 rm)的个数,通常情况下,每个索引项就是文档中的 语的文档。该列表还会包含一些辅助信息,比如该词或者短
一个单词或者短语。这样,K 维向量中的每一项的值,就是 语在文档中出现的次数以及出现的位置等,这些信息会被用
该索引项在这个文档中的权重。权重一般情况下是个大于或 来对搜索结果进行排序。这种结构对于“哪些文档中包含单
者等于 0 的值,如果该索引项在该文档中不存在,则权重为 词 X”这样的问题能够快速得到搜索结果。例如,典型的反
0,否则权重被赋予一个大于 0 的值。按照这个定义,每个文 向列表可表示为 tdin→〈 12,,KK〉 〈d,〉,K,〈d,K〉。
档可以表示为 索引文件结构
d = (, ,..., )
j ww1, jj2, wk, j 为了实现高效的索引和检索,就必须具有良好的索引文
其中, wkj, 表示第 k 个索引项在文档 j 中的权重。同理,每个 件结构。Lucene 的索引文件包括逻辑结构和物理结构。Lucene
q=( , ,..., ) 的每个索引文件都由一个或者多个片段(segment)组成;每个
查询语句也可以表示成向量 ww1,qq2, wk,q。将文档和用户的
片段都是一个可以被独立检索的模块,包含一定数量的文档
查询语句都表示成向量之后,就可以利用文档向量和查询向
(document),这里的文档可以是一个 HTML 页面,一个 XML
量之间的相似性来表示文档和查询之间的相关性。为了衡量
文档,或一个 Word 文档。Lucene 的索引文件的逻辑结构如
文档向量和查询向量之间的相似
Lucene搜索引擎 来自淘豆网m.daumloan.com转载请标明出处.