首页--工业技术--自动化技术、计算机技术--计算技术、计算机技术--计算机软件--程序设计、软件工程--软件工程

多文档自动文摘系统的研究与应用

多文档自动文摘论文句子相似度计算论文子主题论文句子优化选择论文文摘句排序论文

论文详情

近年来,随着互联网的普及,网上的信息越来越多,为人们提供了丰富的信息资源。目前,人们主要是通过搜索引擎获得自己所需要的信息,但搜索引擎返回来的相关文档太多,其中有大量的信息是重复和相似的,这样人们就不能快速地获得信息。多文档自动文摘研究的目标正是力求解决这一问题,直接提供给用户简洁全面的文档,以提高用户获取信息的效率。本文重点研究的是多文档自动文摘中的几个重要问题:汉语句子相似度的计算、子主题的确定、句子优化选择、文摘句排序以及多文档自动文摘的评价等关键技术。首先对句子相似度计算进行深入研究,对基于语义词典的相似度计算方法进行了详细的讨论。提出了基于最大树法的多文档集合子主题的划分方法,在句子相似度计算的基础上求得最大树,将相似的句子合并为一个类,每一类代表一个子主题。提出了句子的优化选择方法。为了保证文摘在有限的空间要求下,尽可能覆盖重要全面的信息,将文摘句的抽取过程分解为子主题的排序以及子主题内句子的优化选择两个阶段。文中给出了子主题打分和排序方法,以信息覆盖率为优化目标,对子主题内句子进行优化选择。讨论了几种文摘句的排序方法,最终确定基于文本框架和文摘句位置参数的排序方法。最后研究了多文档自动文摘的评价。

摘要	第4-5页
Abstract	第5-6页
目录	第7-9页
第一章绪论	第9-16页
1.1 多文档自动文摘技术的研究意义	第9-10页
1.2 多文档文摘与相关自然语言处理技术	第10-11页
1.3 多文档自动文摘技术在国内外的研究现状	第11-14页
1.3.1 通用型多文档自动文摘系统	第12-14页
1.3.2 问题聚焦型多文档自动文摘系统	第14页
1.4 本文主要内容	第14-16页
第二章多文档自动文摘关键技术	第16-24页
2.1 句子相似度计算	第16-19页
2.2 文摘句的抽取	第19-21页
2.3 文摘句排序	第21-22页
2.4 多文档自动文摘的评价	第22-23页
2.5 本章小结	第23-24页
第三章基于子主题的多文档文摘系统	第24-54页
3.1 系统概述	第24页
3.2 文本预处理	第24-27页
3.2.1 中文分词	第25-27页
3.2.2 特征项的抽取	第27页
3.3 基于语义词典的句子相似度计算	第27-32页
3.3.1 《同义词词林》简介	第28-29页
3.3.2 基于《同义词词林》的句子相似度算法	第29-32页
3.3.3 实验结果及分析	第32页
3.4 多文档集合子主题的确定	第32-42页
3.4.1 子主题的定义	第33-35页
3.4.2 模糊聚类	第35-38页
3.4.3 子主题的确定	第38-41页
3.4.4 实验结果及分析	第41-42页
3.5 文摘句的抽取	第42-48页
3.5.1 子主题排序	第42-46页
3.5.2 文摘句的优化抽取	第46-48页
3.6 文摘句的排序	第48-53页
3.6.1 基于文本框架的排序	第48-49页
3.6.2 基于文摘句位置参数的排序	第49-51页
3.6.3 基于文本框架与文摘句位置参数的排序	第51-53页
3.7 本章小结	第53-54页
第四章多文档自动文摘的评价	第54-66页
4.1 内部评价	第55页
4.2 外部评价	第55-56页
4.3 多文档文摘的自动评测	第56-62页
4.3.1 人工评测	第56-57页
4.3.2 多文档文摘的自动评测	第57-62页
4.4 实验结果与分析	第62-64页
4.5 本章小结	第64-66页
第五章总结与展望	第66-68页
5.1 本文内容总结	第66-67页
5.2 今后的工作与展望	第67-68页
参考文献	第68-73页
致谢	第73-74页
攻读硕士学位期间发表的学术论文	第74页

论文购买

论文编号ABS1344276，这篇论文共74页

会员购买按0.30元/页下载，共需支付22.2。

会员购买

不是会员，注册会员！
会员更优惠充值送钱！

直接购买按0.5元/页下载，共需要支付37。

直接购买

只需这篇论文，无需注册！
直接网上支付，方便快捷！