基于Web文本信息的智能检索系统的设计与实现

智能信息检索论文 搜索引擎论文 智能Agent论文 Lucene论文 Nutch论文
论文详情
随着互联网技术的发展和网络应用的日益广泛,Internet已经成为了人们获取信息资源和进行信息交流的一个重要途径,与此同时,Web信息也日益增长。如何从海量的互联网信息中找到自己所需要的信息,成为了互联网发展的一大难题。虽然传统搜索引擎的出现极大地提高了网络信息的检索速度,在一定程度上解决了这个问题,但还是无法满足人们想要准确获取信息的需求。因而对搜索引擎智能化的技术研究有着重要的现实意义。本文通过研究搜索引擎的技术框架和智能信息检索的主要技术方案,针对传统搜索引擎存在的不足,利用开源软件Lucene和Nutch,设计和实现了基于Web的文本信息的智能检索系统。本论文所做的主要工作如下:(1)在对信息检索的模型理论和搜索引擎的综合技术充分了解的基础上,针对传统搜索引擎存在的不足,详细分析了自然语言理解技术、基于Agent的智能信息检索、基于本体的智能信息检索和网页相关性研究,并对PageRank和HIT算法进行优劣对比,优化PageRank算法。(2)基于Lucene和Nutch搜索引擎智能化的实现。Lucene是Nutch内核的重要组成部分,从对Nutch的实现效果来看,Nutch的工作原理和当前商业搜索引擎的工作原理是一样的,也包含了其他技术要点,包括网页快照、网页详细信息等。利用语义分析和智能Agent的相关知识,从本地文档和数据库建立索引,建立计算机所能理解的“知识”,从而使信息检索更加智能化。(3)实验改进。Nutch原型的Crawl部分还有很多局限性,需要进行多部分的修改,改进的内容包括Crawl无法重复抓取同一个网站和不能自动更新索引的问题。中文分词的重要性不言而喻,由于Nutch自带的分词器对中文支持很弱,所以我们引入了庖丁解牛分词,并取得较好的效果。用户体验设计的修改,本论文的用户体验设计主要针对关键词的推荐和输入框的智能提示。本论文的研究内容将为智能化搜索引擎的设计方案提供一个更全面的知识内容,为智能信息搜索引擎的进一步发展提供一个新的平台。
摘要第4-5页
Abstract第5-6页
第一章 引言第11-15页
    1.1 论文研究的背景及现状第11-12页
    1.2 Web 信息检索的研究意义第12-13页
    1.3 研究内容第13-14页
    1.4 本文组织结构第14-15页
第二章 信息检索概述第15-32页
    2.1 信息检索模型第15-17页
        2.1.1 检索模型的国内外研究进展第15-17页
        2.1.2 信息检索模型的形式特征第17页
    2.2 经典信息检索模型第17-22页
        2.2.1 基本概念第17-18页
        2.2.2 经典布尔模型第18-19页
        2.2.3 经典向量模型第19-21页
        2.2.4 经典概率模型第21-22页
    2.3 其他检索模型第22-23页
    2.4 搜索引擎第23-25页
        2.4.1 全文搜索引擎第23页
        2.4.2 目录索引类搜索引擎第23-24页
        2.4.3 元搜索引擎第24页
        2.4.4 其他搜索引擎形式第24-25页
    2.5 搜索引擎工作原理及流程第25-30页
        2.5.1 抓取器第27-28页
        2.5.2 分析器第28页
        2.5.3 索引器第28-29页
        2.5.4 搜索器第29-30页
        2.5.5 用户接口第30页
    2.6 检索评价第30-31页
    2.7 本章小节第31-32页
第三章 智能信息检索第32-48页
    3.1 Web 搜索引擎所面临的挑战第32页
    3.2 智能搜索引擎第32-33页
    3.3 基于语义理解的智能检索第33-36页
        3.3.1 自然语言的理解第33页
        3.3.2 自然语言处理方法第33-34页
        3.3.3 基于语义理解查询设计思想第34-36页
    3.4 基于 Agent 的智能信息检索第36-40页
        3.4.1 智能代理的概念及功能第36页
        3.4.2 多Agent 系统框架第36-38页
        3.4.3 Agent 和Subagent第38-40页
    3.5 基于本体的智能信息检索第40-42页
        3.5.1 本体(Ontology)概念第40页
        3.5.2 基本Ontology 设计思想第40-41页
        3.5.3 基于Ontology 的系统框架第41-42页
    3.6 基于链接的网页相关性研究第42-47页
        3.6.1 链接分析第42-43页
        3.6.2 HITS 算法第43-44页
        3.6.3 PageRank 算法第44-46页
            3.6.3.1 PageRank 算法评价及改进第45-46页
        3.6.4 TH-PageRank 算法第46-47页
    3.7 本章小结第47-48页
第四章 基于Web 文本信息的检索系统设计第48-62页
    4.1 Lucene 概述第48-50页
        4.1.1 什么是Lucene第48页
        4.1.2 Lucene 的特点、优势及应用第48-50页
    4.2 Lucene 系统结构组织第50-54页
        4.2.1 Lucene 逻辑功能第52-53页
        4.2.2 查询逻辑第53页
        4.2.3 入库逻辑第53-54页
    4.3 Nutch 概述第54-57页
        4.3.1 Nutch 的体系结构及工作原理第54-55页
        4.3.2 Nutch 的工作流程第55-57页
    4.4 Nutch 的数据存储第57-59页
    4.5 关于 Cygwin第59-60页
    4.6 中文分词的设计第60-61页
    4.7 本章小节第61-62页
第五章 基于 Lucene 和 Nutch 的搜索引擎系统实现第62-76页
    5.1 开发环境第62页
    5.2 Nutch 开发应用过程第62-68页
        5.2.1 详细实现步骤第62-68页
    5.3 搜索结果显示第68-71页
    5.4 引入智能检索技术方案第71-75页
        5.4.1 详细设计流程第72-73页
        5.4.2 索引数据库记录第73-75页
    5.5 本章小节第75-76页
第六章 实验测试与改进第76-83页
    6.1 同商业搜索引擎的对比第76页
    6.2 Crawl 修改第76-77页
    6.3 中文分词改进第77-79页
    6.4 增加数据库索引第79-80页
    6.5 用户体验第80-82页
        6.5.1 相关词推荐第81页
        6.5.2 关键词加亮提示第81页
        6.5.3 关键词智能提示第81-82页
    6.6 本章小结第82-83页
第七章 总结和期望第83-85页
    7.1 总结第83-84页
    7.2 期望第84-85页
致谢第85-86页
参考文献第86-89页
论文购买
论文编号ABS537361,这篇论文共89页
会员购买按0.30元/页下载,共需支付26.7
不是会员,注册会员
会员更优惠充值送钱
直接购买按0.5元/页下载,共需要支付44.5
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文

点击收藏 | 在线购卡 | 站内搜索 | 网站地图
版权所有 艾博士论文 Copyright(C) All Rights Reserved
版权申明:本文摘要目录由会员***投稿,艾博士论文编辑,如作者需要删除论文目录请通过QQ告知我们,承诺24小时内删除。
联系方式: QQ:277865656