基于全文检索的企业资源搜索系统
全文索引论文 倒排文件论文 索引压缩论文 索引查询论文 最小完美哈希函数论文
论文详情
基于文档集合的全文检索是现代信息技术的一个重要的分支,是处理大规模非结构化的信息的工具,当前许多搜索引擎的理论基础也基于此。本论文论述的重点是全文检索技术的运用,包括倒排文档的建立,倒排文档的压缩,索引的建立及索引的查询。对全文检索的技术进行了以下较为深入的研究:1、介绍了国内国外检索技术的发展历史以及最新的技术发展现状。讨论了文档数据库的概念;普通文本检索的概念;倒排文档、文档压缩、索引查询等技术特点。2、研究论述了全文索引技术倒排列表的结构及压缩技术并对倒排索引的结构进行了改进以获得更好的结果排名;详细论述了数据字典的采集过程;简单介绍了停用词等关键字过滤的技术。3、研究论述了全文检索技术生成倒排列表的技术,详细论述了典型的倒排文档生成算法,包括基于内存的倒排,和基于归并的倒排,并对其时间效率,空间效率进行了详细的分析。4、研究论述了全文检索技术索引查询的技术,并详细论述了最小完美哈希函数的实现,分别论述了布尔查询及基于进行排名的算法。
摘要 | 第4-5页 |
ABSTRACT | 第5页 |
第一章 绪论 | 第9-15页 |
1.1 计算机信息检索的发展 | 第9-10页 |
1.2 全文检索的定义 | 第10页 |
1.3 检索技术的分类 | 第10-11页 |
1.3.1 基于概念的信息检索技术 | 第10页 |
1.3.2 超文本信息检索技术 | 第10-11页 |
1.3.3 基于内容的多媒体检索技术 | 第11页 |
1.4 数据挖掘技术的发展 | 第11-12页 |
1.5 全文检索的特点 | 第12-13页 |
1.6 全文检索面临的问题 | 第13-14页 |
1.7 全文结构 | 第14-15页 |
第二章 倒排文件及压缩 | 第15-26页 |
2.1 索引建立的目的 | 第15-16页 |
2.2 单词的预处理 | 第16-17页 |
2.3 倒排文件索引 | 第17-19页 |
2.3.1 倒排文件索引的定义 | 第17页 |
2.3.2 倒排索引的结构 | 第17-19页 |
2.4 压缩倒排文件 | 第19-26页 |
2.4.1 压缩方案 | 第20-23页 |
2.4.2 局部贝努力模型 | 第23-24页 |
2.4.3 索引压缩的效果 | 第24-26页 |
第三章 索引的查询 | 第26-41页 |
3.1 布尔查询的定义 | 第26-27页 |
3.2 排名查询的定义 | 第27-28页 |
3.3 访问字典的方法 | 第28页 |
3.4 最小完美哈希函数 | 第28-36页 |
3.4.1 找到最小完美哈希函数的代价 | 第31-32页 |
3.4.2 小完美哈希函数的设计 | 第32-36页 |
3.5 信息检索和排名 | 第36-39页 |
3.6 检索效果的评估 | 第39-41页 |
3.6.1 空间消耗 | 第39页 |
3.6.2 时间消耗 | 第39-41页 |
第四章 索引的创建 | 第41-54页 |
4.1 频率矩阵转化倒排矩阵 | 第41-43页 |
4.2 基于内存的倒排 | 第43-45页 |
4.2.1 算法实现 | 第43-44页 |
4.2.2 算法分析 | 第44-45页 |
4.3 基于排序的倒排 | 第45-50页 |
4.3.1 算法实现 | 第46-49页 |
4.3.2 算法分析 | 第49-50页 |
4.4 对大规模文档集合的支持 | 第50-54页 |
4.4.1 使用压缩实现大规模文档的倒排 | 第50-53页 |
4.4.2 使用多路归并算法改进系统 | 第53-54页 |
第五章 系统的实现 | 第54-66页 |
5.1 需求分析 | 第54-57页 |
5.3 各模块详细设计 | 第57-62页 |
5.4 系统截图 | 第62-63页 |
5.5 主要模块单元测试 | 第63-66页 |
第六章 全文总结和展望 | 第66-67页 |
参考文献 | 第67-68页 |
论文购买
论文编号
ABS537274,这篇论文共68页
会员购买按0.30元/页下载,共需支付
20.4。
不是会员,
注册会员!
会员更优惠
充值送钱!
直接购买按0.5元/页下载,共需要支付
34。
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文