首页--工业技术--自动化技术、计算机技术--计算技术、计算机技术--计算机的应用--信息处理（信息加工）--检索机

基于Web文本信息的智能检索系统的设计与实现

智能信息检索论文搜索引擎论文智能Agent论文 Lucene论文 Nutch论文

论文详情

随着互联网技术的发展和网络应用的日益广泛,Internet已经成为了人们获取信息资源和进行信息交流的一个重要途径,与此同时,Web信息也日益增长。如何从海量的互联网信息中找到自己所需要的信息,成为了互联网发展的一大难题。虽然传统搜索引擎的出现极大地提高了网络信息的检索速度,在一定程度上解决了这个问题,但还是无法满足人们想要准确获取信息的需求。因而对搜索引擎智能化的技术研究有着重要的现实意义。本文通过研究搜索引擎的技术框架和智能信息检索的主要技术方案,针对传统搜索引擎存在的不足,利用开源软件Lucene和Nutch,设计和实现了基于Web的文本信息的智能检索系统。本论文所做的主要工作如下:(1)在对信息检索的模型理论和搜索引擎的综合技术充分了解的基础上,针对传统搜索引擎存在的不足,详细分析了自然语言理解技术、基于Agent的智能信息检索、基于本体的智能信息检索和网页相关性研究,并对PageRank和HIT算法进行优劣对比,优化PageRank算法。(2)基于Lucene和Nutch搜索引擎智能化的实现。Lucene是Nutch内核的重要组成部分,从对Nutch的实现效果来看,Nutch的工作原理和当前商业搜索引擎的工作原理是一样的,也包含了其他技术要点,包括网页快照、网页详细信息等。利用语义分析和智能Agent的相关知识,从本地文档和数据库建立索引,建立计算机所能理解的“知识”,从而使信息检索更加智能化。(3)实验改进。Nutch原型的Crawl部分还有很多局限性,需要进行多部分的修改,改进的内容包括Crawl无法重复抓取同一个网站和不能自动更新索引的问题。中文分词的重要性不言而喻,由于Nutch自带的分词器对中文支持很弱,所以我们引入了庖丁解牛分词,并取得较好的效果。用户体验设计的修改,本论文的用户体验设计主要针对关键词的推荐和输入框的智能提示。本论文的研究内容将为智能化搜索引擎的设计方案提供一个更全面的知识内容,为智能信息搜索引擎的进一步发展提供一个新的平台。

摘要	第4-5页
Abstract	第5-6页
第一章引言	第11-15页
1.1 论文研究的背景及现状	第11-12页
1.2 Web 信息检索的研究意义	第12-13页
1.3 研究内容	第13-14页
1.4 本文组织结构	第14-15页
第二章信息检索概述	第15-32页
2.1 信息检索模型	第15-17页
2.1.1 检索模型的国内外研究进展	第15-17页
2.1.2 信息检索模型的形式特征	第17页
2.2 经典信息检索模型	第17-22页
2.2.1 基本概念	第17-18页
2.2.2 经典布尔模型	第18-19页
2.2.3 经典向量模型	第19-21页
2.2.4 经典概率模型	第21-22页
2.3 其他检索模型	第22-23页
2.4 搜索引擎	第23-25页
2.4.1 全文搜索引擎	第23页
2.4.2 目录索引类搜索引擎	第23-24页
2.4.3 元搜索引擎	第24页
2.4.4 其他搜索引擎形式	第24-25页
2.5 搜索引擎工作原理及流程	第25-30页
2.5.1 抓取器	第27-28页
2.5.2 分析器	第28页
2.5.3 索引器	第28-29页
2.5.4 搜索器	第29-30页
2.5.5 用户接口	第30页
2.6 检索评价	第30-31页
2.7 本章小节	第31-32页
第三章智能信息检索	第32-48页
3.1 Web 搜索引擎所面临的挑战	第32页
3.2 智能搜索引擎	第32-33页
3.3 基于语义理解的智能检索	第33-36页
3.3.1 自然语言的理解	第33页
3.3.2 自然语言处理方法	第33-34页
3.3.3 基于语义理解查询设计思想	第34-36页
3.4 基于 Agent 的智能信息检索	第36-40页
3.4.1 智能代理的概念及功能	第36页
3.4.2 多Agent 系统框架	第36-38页
3.4.3 Agent 和Subagent	第38-40页
3.5 基于本体的智能信息检索	第40-42页
3.5.1 本体(Ontology)概念	第40页
3.5.2 基本Ontology 设计思想	第40-41页
3.5.3 基于Ontology 的系统框架	第41-42页
3.6 基于链接的网页相关性研究	第42-47页
3.6.1 链接分析	第42-43页
3.6.2 HITS 算法	第43-44页
3.6.3 PageRank 算法	第44-46页
3.6.3.1 PageRank 算法评价及改进	第45-46页
3.6.4 TH-PageRank 算法	第46-47页
3.7 本章小结	第47-48页
第四章基于Web 文本信息的检索系统设计	第48-62页
4.1 Lucene 概述	第48-50页
4.1.1 什么是Lucene	第48页
4.1.2 Lucene 的特点、优势及应用	第48-50页
4.2 Lucene 系统结构组织	第50-54页
4.2.1 Lucene 逻辑功能	第52-53页
4.2.2 查询逻辑	第53页
4.2.3 入库逻辑	第53-54页
4.3 Nutch 概述	第54-57页
4.3.1 Nutch 的体系结构及工作原理	第54-55页
4.3.2 Nutch 的工作流程	第55-57页
4.4 Nutch 的数据存储	第57-59页
4.5 关于 Cygwin	第59-60页
4.6 中文分词的设计	第60-61页
4.7 本章小节	第61-62页
第五章基于 Lucene 和 Nutch 的搜索引擎系统实现	第62-76页
5.1 开发环境	第62页
5.2 Nutch 开发应用过程	第62-68页
5.2.1 详细实现步骤	第62-68页
5.3 搜索结果显示	第68-71页
5.4 引入智能检索技术方案	第71-75页
5.4.1 详细设计流程	第72-73页
5.4.2 索引数据库记录	第73-75页
5.5 本章小节	第75-76页
第六章实验测试与改进	第76-83页
6.1 同商业搜索引擎的对比	第76页
6.2 Crawl 修改	第76-77页
6.3 中文分词改进	第77-79页
6.4 增加数据库索引	第79-80页
6.5 用户体验	第80-82页
6.5.1 相关词推荐	第81页
6.5.2 关键词加亮提示	第81页
6.5.3 关键词智能提示	第81-82页
6.6 本章小结	第82-83页
第七章总结和期望	第83-85页
7.1 总结	第83-84页
7.2 期望	第84-85页
致谢	第85-86页
参考文献	第86-89页

论文购买

论文编号ABS537361，这篇论文共89页

会员购买按0.30元/页下载，共需支付26.7。

会员购买

不是会员，注册会员！
会员更优惠充值送钱！

直接购买按0.5元/页下载，共需要支付44.5。

直接购买

只需这篇论文，无需注册！
直接网上支付，方便快捷！