首页--工业技术--自动化技术、计算机技术--计算技术、计算机技术--计算机的应用--信息处理（信息加工）--文字信息处理

面向查询的多文档自动文摘关键技术研究

自动文摘论文自然语言处理论文机器学习论文文摘评测论文

论文详情

随着互联网的迅速发展和文本信息的日益增多,从大量信息中快速查找和获取有用信息的迫切需求使得自动文摘技术日益重要。自动文摘是指由计算机自动从一篇或多篇文本中概括出主要内容,从而把大量原来需要用户来完成的工作都交给计算机自动完成,节省了用户浏览信息的时间,减轻了用户负担。这个任务涉及到文本理解、文本生成等自然语言处理领域的多个方面,对于计算机具有很大的挑战性。本文正是在这种前提下,对自动文摘技术进行了探索性研究。本文在面向查询的多文档自动文摘方面以及文摘连贯性的自动评价方面做了深入的研究工作。我们在这两年参加文摘方面的国际评测会议DUC的基础上,研究并实现了多种面向查询的多文档自动文摘技术。我们采用了最大熵模型来实现基于机器学习的自动文摘系统。为了进一步找出文档句之间以及句子与查询之间的语义关联,我们提出了一种在文摘系统中进行语义扩展的方法,该方法通过WordNet中定义的同义词集以及词与词之间的语义关系,对传统的基于词的句子向量进行语义扩展,从而将语义信息融入到句子中,使得系统性能比起语义扩展前得到了显著提高。本文还提出了一种基于图排序算法的查询扩展方法,将其结合到面向查询的自动文摘系统中,可以很好的解决原始查询中通常包含信息量不足的问题。该扩展方法在句一句关系以及句一词关系的基础上利用上下文信息对查询进行扩展,能够以较少的噪声获取到更多相关信息。加入了查询扩展后的文摘系统在性能上比扩展前有明显的提高,在DUC标准评测语料上达到了目前的最好结果,充分表明了该查询扩展方法的有效性。自动文摘研究的另一个主要方面是文摘的评测。当前对文摘的自动评测主要在于考察文摘的内容覆盖率,对文摘语言质量如可读性、连贯性等方面的评测则由人工完成,由于需要消耗大量人力而且缺乏客观性,使得人工评测方法不能普及,所以如何能对文摘的语言质量进行自动评测是一个重要研究问题。本文提出了一种对文摘连贯性的自动评价模型。在文摘连贯性的自动评价上,我们对基于实体的连贯性基本模型从特征和实体选取等方面做了深入研究,通过考虑网格中的邻居以及非相邻句等信息对原有实体转移特征进行了细化;分析了实体选择在模型中的重要性,并且通过潜在语义分析重新建立了实体网格,从而对原有模型进行了改进,在实验中获得了更高的准确率。

摘要	第3-4页
Abstract	第4页
第一章自动文摘介绍	第10-30页
1.1 自动文摘的背景和意义	第10-12页
1.1.1 文本理解会议简介	第11-12页
1.2 自动文摘概述	第12-20页
1.2.1 文摘的基本概念	第12-15页
1.2.2 自动文摘系统的基本框架	第15-16页
1.2.3 自动文摘的主要技术	第16-18页
1.2.4 自动文摘的研究历史和现状	第18-20页
1.3 自动文摘系统评价	第20-27页
1.3.1 内部评价和外部评价	第20-22页
1.3.2 人工评价和自动评价	第22-27页
1.4 自动文摘与自然语言处理领域其它一些任务的关系	第27-28页
1.5 本文组织结构	第28-30页
第二章面向查询的多文档自动文摘中多策略的研究	第30-66页
2.1 介绍	第30-32页
2.1.1 面向查询的多文档自动文摘任务	第30-31页
2.1.2 相关工作	第31-32页
2.2 基于机器学习方法的文摘系统	第32-44页
2.2.1 特征介绍	第32-34页
2.2.2 句子相似度计算	第34-37页
2.2.2.1 WordNet简介	第34-35页
2.2.2.2 基于WordNet的句子相似度计算	第35-37页
2.2.3 用最大熵模型对句子评分	第37-39页
2.2.3.1 最大熵模型简介	第37-39页
2.2.3.2 最大熵模型的训练和应用	第39页
2.2.4 冗余去除模块	第39-40页
2.2.5 文摘粒度分析	第40-41页
2.2.6 实验结果及分析	第41-44页
2.3 基于语义扩展的文摘系统	第44-51页
2.3.1 基于WordNet的语义扩展方法	第45-46页
2.3.2 词义消歧	第46-48页
2.3.3 系统流程	第48页
2.3.4 实验结果及分析	第48-51页
2.4 基于查询扩展的文摘系统	第51-65页
2.4.1 图排序算法及相关工作	第52-56页
2.4.1.1 PageRank算法简介	第52-53页
2.4.1.2 图排序算法在自动文摘中的相关工作	第53-56页
2.4.2 基于查询扩展的文摘系统	第56-59页
2.4.2.1 系统框架	第56-57页
2.4.2.2 基于图模型的句子排序	第57-58页
2.4.2.3 查询扩展算法描述	第58页
2.4.2.4 句子重新排序	第58-59页
2.4.2.5 去除冗余算法	第59页
2.4.3 实验结果及分析	第59-65页
2.5 本章小结	第65-66页
第三章文摘连贯性自动评价技术的研究	第66-84页
3.1 介绍	第66-68页
3.1.1 文摘合成	第66-67页
3.1.2 文摘连贯性研究的意义	第67-68页
3.2 连贯性相关工作	第68-70页
3.3 基于实体的连贯性评价基本模型	第70-75页
3.4 连贯性评价模型改进	第75-83页
3.4.1 指代消解的作用	第75-77页
3.4.2 特征计算	第77-80页
3.4.2.1 用邻居信息进行特征细化	第77-78页
3.4.2.2 非相邻句间转移特征	第78页
3.4.2.3 实验结果	第78-80页
3.4.3 实体网格的重建	第80-83页
3.4.3.1 实体选择的重要性分析	第80-81页
3.4.3.2 基于潜在语义分析的实体网格重建	第81-82页
3.4.3.3 实验结果	第82-83页
3.5 本章小结	第83-84页
第四章总结与展望	第84-86页
4.1 工作总结	第84页
4.2 未来展望	第84-86页
参考文献	第86-95页
攻读博士期间主要工作	第95-96页
致谢	第96-97页

论文购买

论文编号ABS1293802，这篇论文共97页

会员购买按0.30元/页下载，共需支付29.1。

会员购买

不是会员，注册会员！
会员更优惠充值送钱！

直接购买按0.5元/页下载，共需要支付48.5。

直接购买

只需这篇论文，无需注册！
直接网上支付，方便快捷！