面向查询的多文档自动文摘关键技术研究

自动文摘论文 自然语言处理论文 机器学习论文 文摘评测论文
论文详情
随着互联网的迅速发展和文本信息的日益增多,从大量信息中快速查找和获取有用信息的迫切需求使得自动文摘技术日益重要。自动文摘是指由计算机自动从一篇或多篇文本中概括出主要内容,从而把大量原来需要用户来完成的工作都交给计算机自动完成,节省了用户浏览信息的时间,减轻了用户负担。这个任务涉及到文本理解、文本生成等自然语言处理领域的多个方面,对于计算机具有很大的挑战性。本文正是在这种前提下,对自动文摘技术进行了探索性研究。本文在面向查询的多文档自动文摘方面以及文摘连贯性的自动评价方面做了深入的研究工作。我们在这两年参加文摘方面的国际评测会议DUC的基础上,研究并实现了多种面向查询的多文档自动文摘技术。我们采用了最大熵模型来实现基于机器学习的自动文摘系统。为了进一步找出文档句之间以及句子与查询之间的语义关联,我们提出了一种在文摘系统中进行语义扩展的方法,该方法通过WordNet中定义的同义词集以及词与词之间的语义关系,对传统的基于词的句子向量进行语义扩展,从而将语义信息融入到句子中,使得系统性能比起语义扩展前得到了显著提高。本文还提出了一种基于图排序算法的查询扩展方法,将其结合到面向查询的自动文摘系统中,可以很好的解决原始查询中通常包含信息量不足的问题。该扩展方法在句一句关系以及句一词关系的基础上利用上下文信息对查询进行扩展,能够以较少的噪声获取到更多相关信息。加入了查询扩展后的文摘系统在性能上比扩展前有明显的提高,在DUC标准评测语料上达到了目前的最好结果,充分表明了该查询扩展方法的有效性。自动文摘研究的另一个主要方面是文摘的评测。当前对文摘的自动评测主要在于考察文摘的内容覆盖率,对文摘语言质量如可读性、连贯性等方面的评测则由人工完成,由于需要消耗大量人力而且缺乏客观性,使得人工评测方法不能普及,所以如何能对文摘的语言质量进行自动评测是一个重要研究问题。本文提出了一种对文摘连贯性的自动评价模型。在文摘连贯性的自动评价上,我们对基于实体的连贯性基本模型从特征和实体选取等方面做了深入研究,通过考虑网格中的邻居以及非相邻句等信息对原有实体转移特征进行了细化;分析了实体选择在模型中的重要性,并且通过潜在语义分析重新建立了实体网格,从而对原有模型进行了改进,在实验中获得了更高的准确率。
摘要第3-4页
Abstract第4页
第一章 自动文摘介绍第10-30页
    1.1 自动文摘的背景和意义第10-12页
        1.1.1 文本理解会议简介第11-12页
    1.2 自动文摘概述第12-20页
        1.2.1 文摘的基本概念第12-15页
        1.2.2 自动文摘系统的基本框架第15-16页
        1.2.3 自动文摘的主要技术第16-18页
        1.2.4 自动文摘的研究历史和现状第18-20页
    1.3 自动文摘系统评价第20-27页
        1.3.1 内部评价和外部评价第20-22页
        1.3.2 人工评价和自动评价第22-27页
    1.4 自动文摘与自然语言处理领域其它一些任务的关系第27-28页
    1.5 本文组织结构第28-30页
第二章 面向查询的多文档自动文摘中多策略的研究第30-66页
    2.1 介绍第30-32页
        2.1.1 面向查询的多文档自动文摘任务第30-31页
        2.1.2 相关工作第31-32页
    2.2 基于机器学习方法的文摘系统第32-44页
        2.2.1 特征介绍第32-34页
        2.2.2 句子相似度计算第34-37页
            2.2.2.1 WordNet简介第34-35页
            2.2.2.2 基于WordNet的句子相似度计算第35-37页
        2.2.3 用最大熵模型对句子评分第37-39页
            2.2.3.1 最大熵模型简介第37-39页
            2.2.3.2 最大熵模型的训练和应用第39页
        2.2.4 冗余去除模块第39-40页
        2.2.5 文摘粒度分析第40-41页
        2.2.6 实验结果及分析第41-44页
    2.3 基于语义扩展的文摘系统第44-51页
        2.3.1 基于WordNet的语义扩展方法第45-46页
        2.3.2 词义消歧第46-48页
        2.3.3 系统流程第48页
        2.3.4 实验结果及分析第48-51页
    2.4 基于查询扩展的文摘系统第51-65页
        2.4.1 图排序算法及相关工作第52-56页
            2.4.1.1 PageRank算法简介第52-53页
            2.4.1.2 图排序算法在自动文摘中的相关工作第53-56页
        2.4.2 基于查询扩展的文摘系统第56-59页
            2.4.2.1 系统框架第56-57页
            2.4.2.2 基于图模型的句子排序第57-58页
            2.4.2.3 查询扩展算法描述第58页
            2.4.2.4 句子重新排序第58-59页
            2.4.2.5 去除冗余算法第59页
        2.4.3 实验结果及分析第59-65页
    2.5 本章小结第65-66页
第三章 文摘连贯性自动评价技术的研究第66-84页
    3.1 介绍第66-68页
        3.1.1 文摘合成第66-67页
        3.1.2 文摘连贯性研究的意义第67-68页
    3.2 连贯性相关工作第68-70页
    3.3 基于实体的连贯性评价基本模型第70-75页
    3.4 连贯性评价模型改进第75-83页
        3.4.1 指代消解的作用第75-77页
        3.4.2 特征计算第77-80页
            3.4.2.1 用邻居信息进行特征细化第77-78页
            3.4.2.2 非相邻句间转移特征第78页
            3.4.2.3 实验结果第78-80页
        3.4.3 实体网格的重建第80-83页
            3.4.3.1 实体选择的重要性分析第80-81页
            3.4.3.2 基于潜在语义分析的实体网格重建第81-82页
            3.4.3.3 实验结果第82-83页
    3.5 本章小结第83-84页
第四章 总结与展望第84-86页
    4.1 工作总结第84页
    4.2 未来展望第84-86页
参考文献第86-95页
攻读博士期间主要工作第95-96页
致谢第96-97页
论文购买
论文编号ABS1293802,这篇论文共97页
会员购买按0.30元/页下载,共需支付29.1
不是会员,注册会员
会员更优惠充值送钱
直接购买按0.5元/页下载,共需要支付48.5
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文

点击收藏 | 在线购卡 | 站内搜索 | 网站地图
版权所有 艾博士论文 Copyright(C) All Rights Reserved
版权申明:本文摘要目录由会员***投稿,艾博士论文编辑,如作者需要删除论文目录请通过QQ告知我们,承诺24小时内删除。
联系方式: QQ:277865656