lucene索引创建的理解思路 -

jimmee

浏览: 529340 次
性别:
来自: 杭州

最近访客更多访客>>

loven_11

shohokuf

sunyeshigou

新的开始2015

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

lucene索引创建的理解思路

博客分类：

算法
搜索引擎
J2SE

lucene 索引原理思路

虽然lucene4很早就出来，但是这里仍然以lucene3.0为基础，理解lucene索引创建的思路：

1. 要记录正向信息

field的数据，fdx，fdt，依次写每个field的即可

词向量，tvx，tvd，tvf

tvf是真正存储的地方，tvx是每个文档一项，具体包含第一个field的位置，其他field只要记录与覅一个field的偏移量即可

2. 记录反向信息

字典信息，tii，tis，通过字典，能够找到frq位置和prx位置

即，term1记录有此文档的倒排链表的位置，以及位置信息的链表

frq是倒排表，首先是倒排表，之后是跳跃表（肯定先放正常的倒排表，有了确定的位置后，方便建跳跃表），一层一层的建。

prx文档类似的

3. 如果自己来实现，如何实现？

（1）针对正向的数据fdx，fdt，就是一个文档的每个field的进来的原始数据，因此，可以直接保存，因为这不需要额外的分析就可以确定，可以直接写到磁盘的，顺序的写。

文档1

文档2

文档3

...

文档n

（2）针对正向信息的tvx，tvd，tvf等，肯定需要等每个field的term分析结束才行，否则不可能得到完整的信息，具体一个词在本文档中的词频，位置信息，也需要分析完term才能确定

field-->term

term->docid,freq,position

（3）tii，tis，frq，prx的形成，只有在一批文档完成后，才能形成，因为只有知道了所有的文档后，按文档id排序，才能构建

tii，tis

frq->docId1，freq1；docId2，freq2

prox->docId1，prox1；docId2，prox2

4. lucene3.0中的实现

剔除掉接口的描述，只看具体的实现，其实很清楚：

--> code: DocFieldProcessor / DocFieldProcessorPerThread

--> code: DocInverter / DocInverterPerThread / DocInverterPerField

--> code: TermsHash / TermsHashPerThread / TermsHashPerField

--> code: FreqProxTermsWriter / FreqProxTermsWriterPerThread / FreqProxTermsWriterPerField

--> code: TermVectorsTermsWriter / TermVectorsTermsWriterPerThread / TermVectorsTermsWriterPerField

--> code: NormsWriter / NormsWriterPerThread / NormsWriterPerField

--> code: StoredFieldsWriter / StoredFieldsWriterPerThread

处理的层次的分类规则：

（1）是所有文档共享还是线程独立

（2）是正向还是反向的处理

所有文档共享：DocFieldProcessor

所有文档的共享（正向）：StoredFieldsWriter

所有文档的共享（反向）：DocInverter

线程的入口：DocFieldProcessorPerThread

线程的处理（正向）：StoredFieldsWriterPerThread

线程的处理（反向）：DocInverterPerThread

4.1 线程的处理（正向）：StoredFieldsWriterPerThread

（1）DocumentsWriter有统一的内存管理

（2）每个线程写一个文档时，首先从池中获取一个内存块，写信息

（3）写文档结束后，直接将正向的fdt和fdx写到磁盘上，重用内存块

多个段之间的正向fdt和fdx是可以共享一个文件的。例如没有提交一批文档之前，如果内存满了，那么先flush，会生成tii，tis和frq，prx等。

之后后续commit了，会生成另一个段的tii，tis等，但是fdt和fdx是相同的。

4.2 线程的处理（反向）：DocInverterPerThread

一个文档的反向信息要缓存的信息有哪些？

（1）term的文本

（2）term对应的docId，freq，prox信息

（3）上述信息的指针

每个field的有一个缓存的term的hash数组：此hash数组的对象，包含了指针信息：term的文本的指针；term对应的prox信息（遇见一次，记录一次）

后续的文档：当遇到同样的一个term，文本重用，同样的缓存frq，prox即可。

4.3 方向信息的生成：通过flush到磁盘时，从缓存中生成。

0
顶

0
踩

分享到：

一些博客的收藏 | haproxy安装配置及丢包问题分析

2014-06-29 23:12
浏览 1417
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene索引创建的理解思路

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene索引创建的理解思路

评论

发表评论

相关推荐

[转载]并发之痛 Thread，Goroutine，Actor

moses安装记录

翻译算法

JVM动态调整字节码

java字节码常量池处理说明

JPEG 简易文档 V2.15【转载】

Mac OSX 10.10 Yosemite编译OpenJDK 8

Java 并发之 ConcurrentSkipListMap 简述

hbase等源码导入eclipse流程

最简单的平衡树（红-黑树）的实现

多线程程序中操作的原子性[转载]

6. 内存屏障[转载]

5.合并写(write combining)[转载]

4. 内存访问模型的重要性[转载]

3. Java 7与伪共享的新仇旧恨[转载]

2. 伪共享(False Sharing)[转载]

lucene的拼写检查的实现原理

字符串相似算法-(3) NGram Distance

字符串相似算法-(2) Levenshtein distance

字符串相似算法-(1) Jaro-Winkler Distance

最近访客更多访客>>