素材牛VIP会员
lucene全文检索2G文档效率问题
 冷***知  分类:Java代码  人气:982  回帖:1  发布于6年前 收藏

最近写了个数据报告的搜索引擎,发现全文检索2G大小pdf文档效率很低。
业务逻辑

  1. 解析pdf文档,获取文本流。

  2. lucene索引title/content等内容,生成索引文件。

  3. lucene query方法,全文检索。

结果:执行速率不高,内存占用也不小。

我做的优化

  1. 使用停用词stopwords词典过滤content,压缩content文本大小。

  2. 将content流式读取改为内存static存储。

请教优化方案?

讨论这个帖子(1)垃圾回帖将一律封号处理……

Lv7 码师
ha***23 职业无 6年前#1
 文明上网,理性发言!   😉 阿里云幸运券,戳我领取