基于全文检索的企业资源搜索系统

全文索引论文 倒排文件论文 索引压缩论文 索引查询论文 最小完美哈希函数论文
论文详情
基于文档集合的全文检索是现代信息技术的一个重要的分支,是处理大规模非结构化的信息的工具,当前许多搜索引擎的理论基础也基于此。本论文论述的重点是全文检索技术的运用,包括倒排文档的建立,倒排文档的压缩,索引的建立及索引的查询。对全文检索的技术进行了以下较为深入的研究:1、介绍了国内国外检索技术的发展历史以及最新的技术发展现状。讨论了文档数据库的概念;普通文本检索的概念;倒排文档、文档压缩、索引查询等技术特点。2、研究论述了全文索引技术倒排列表的结构及压缩技术并对倒排索引的结构进行了改进以获得更好的结果排名;详细论述了数据字典的采集过程;简单介绍了停用词等关键字过滤的技术。3、研究论述了全文检索技术生成倒排列表的技术,详细论述了典型的倒排文档生成算法,包括基于内存的倒排,和基于归并的倒排,并对其时间效率,空间效率进行了详细的分析。4、研究论述了全文检索技术索引查询的技术,并详细论述了最小完美哈希函数的实现,分别论述了布尔查询及基于进行排名的算法。
摘要第4-5页
ABSTRACT第5页
第一章 绪论第9-15页
    1.1 计算机信息检索的发展第9-10页
    1.2 全文检索的定义第10页
    1.3 检索技术的分类第10-11页
        1.3.1 基于概念的信息检索技术第10页
        1.3.2 超文本信息检索技术第10-11页
        1.3.3 基于内容的多媒体检索技术第11页
    1.4 数据挖掘技术的发展第11-12页
    1.5 全文检索的特点第12-13页
    1.6 全文检索面临的问题第13-14页
    1.7 全文结构第14-15页
第二章 倒排文件及压缩第15-26页
    2.1 索引建立的目的第15-16页
    2.2 单词的预处理第16-17页
    2.3 倒排文件索引第17-19页
        2.3.1 倒排文件索引的定义第17页
        2.3.2 倒排索引的结构第17-19页
    2.4 压缩倒排文件第19-26页
        2.4.1 压缩方案第20-23页
        2.4.2 局部贝努力模型第23-24页
        2.4.3 索引压缩的效果第24-26页
第三章 索引的查询第26-41页
    3.1 布尔查询的定义第26-27页
    3.2 排名查询的定义第27-28页
    3.3 访问字典的方法第28页
    3.4 最小完美哈希函数第28-36页
        3.4.1 找到最小完美哈希函数的代价第31-32页
        3.4.2 小完美哈希函数的设计第32-36页
    3.5 信息检索和排名第36-39页
    3.6 检索效果的评估第39-41页
        3.6.1 空间消耗第39页
        3.6.2 时间消耗第39-41页
第四章 索引的创建第41-54页
    4.1 频率矩阵转化倒排矩阵第41-43页
    4.2 基于内存的倒排第43-45页
        4.2.1 算法实现第43-44页
        4.2.2 算法分析第44-45页
    4.3 基于排序的倒排第45-50页
        4.3.1 算法实现第46-49页
        4.3.2 算法分析第49-50页
    4.4 对大规模文档集合的支持第50-54页
        4.4.1 使用压缩实现大规模文档的倒排第50-53页
        4.4.2 使用多路归并算法改进系统第53-54页
第五章 系统的实现第54-66页
    5.1 需求分析第54-57页
    5.3 各模块详细设计第57-62页
    5.4 系统截图第62-63页
    5.5 主要模块单元测试第63-66页
第六章 全文总结和展望第66-67页
参考文献第67-68页
论文购买
论文编号ABS537274,这篇论文共68页
会员购买按0.30元/页下载,共需支付20.4
不是会员,注册会员
会员更优惠充值送钱
直接购买按0.5元/页下载,共需要支付34
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文

点击收藏 | 在线购卡 | 站内搜索 | 网站地图
版权所有 艾博士论文 Copyright(C) All Rights Reserved
版权申明:本文摘要目录由会员***投稿,艾博士论文编辑,如作者需要删除论文目录请通过QQ告知我们,承诺24小时内删除。
联系方式: QQ:277865656