多文档自动文摘系统的研究与应用

多文档自动文摘论文 句子相似度计算论文 子主题论文 句子优化选择论文 文摘句排序论文
论文详情
近年来,随着互联网的普及,网上的信息越来越多,为人们提供了丰富的信息资源。目前,人们主要是通过搜索引擎获得自己所需要的信息,但搜索引擎返回来的相关文档太多,其中有大量的信息是重复和相似的,这样人们就不能快速地获得信息。多文档自动文摘研究的目标正是力求解决这一问题,直接提供给用户简洁全面的文档,以提高用户获取信息的效率。本文重点研究的是多文档自动文摘中的几个重要问题:汉语句子相似度的计算、子主题的确定、句子优化选择、文摘句排序以及多文档自动文摘的评价等关键技术。首先对句子相似度计算进行深入研究,对基于语义词典的相似度计算方法进行了详细的讨论。提出了基于最大树法的多文档集合子主题的划分方法,在句子相似度计算的基础上求得最大树,将相似的句子合并为一个类,每一类代表一个子主题。提出了句子的优化选择方法。为了保证文摘在有限的空间要求下,尽可能覆盖重要全面的信息,将文摘句的抽取过程分解为子主题的排序以及子主题内句子的优化选择两个阶段。文中给出了子主题打分和排序方法,以信息覆盖率为优化目标,对子主题内句子进行优化选择。讨论了几种文摘句的排序方法,最终确定基于文本框架和文摘句位置参数的排序方法。最后研究了多文档自动文摘的评价。
摘要第4-5页
Abstract第5-6页
目录第7-9页
第一章 绪论第9-16页
    1.1 多文档自动文摘技术的研究意义第9-10页
    1.2 多文档文摘与相关自然语言处理技术第10-11页
    1.3 多文档自动文摘技术在国内外的研究现状第11-14页
        1.3.1 通用型多文档自动文摘系统第12-14页
        1.3.2 问题聚焦型多文档自动文摘系统第14页
    1.4 本文主要内容第14-16页
第二章 多文档自动文摘关键技术第16-24页
    2.1 句子相似度计算第16-19页
    2.2 文摘句的抽取第19-21页
    2.3 文摘句排序第21-22页
    2.4 多文档自动文摘的评价第22-23页
    2.5 本章小结第23-24页
第三章 基于子主题的多文档文摘系统第24-54页
    3.1 系统概述第24页
    3.2 文本预处理第24-27页
        3.2.1 中文分词第25-27页
        3.2.2 特征项的抽取第27页
    3.3 基于语义词典的句子相似度计算第27-32页
        3.3.1 《同义词词林》简介第28-29页
        3.3.2 基于《同义词词林》的句子相似度算法第29-32页
        3.3.3 实验结果及分析第32页
    3.4 多文档集合子主题的确定第32-42页
        3.4.1 子主题的定义第33-35页
        3.4.2 模糊聚类第35-38页
        3.4.3 子主题的确定第38-41页
        3.4.4 实验结果及分析第41-42页
    3.5 文摘句的抽取第42-48页
        3.5.1 子主题排序第42-46页
        3.5.2 文摘句的优化抽取第46-48页
    3.6 文摘句的排序第48-53页
        3.6.1 基于文本框架的排序第48-49页
        3.6.2 基于文摘句位置参数的排序第49-51页
        3.6.3 基于文本框架与文摘句位置参数的排序第51-53页
    3.7 本章小结第53-54页
第四章 多文档自动文摘的评价第54-66页
    4.1 内部评价第55页
    4.2 外部评价第55-56页
    4.3 多文档文摘的自动评测第56-62页
        4.3.1 人工评测第56-57页
        4.3.2 多文档文摘的自动评测第57-62页
    4.4 实验结果与分析第62-64页
    4.5 本章小结第64-66页
第五章 总结与展望第66-68页
    5.1 本文内容总结第66-67页
    5.2 今后的工作与展望第67-68页
参考文献第68-73页
致谢第73-74页
攻读硕士学位期间发表的学术论文第74页
论文购买
论文编号ABS1344276,这篇论文共74页
会员购买按0.30元/页下载,共需支付22.2
不是会员,注册会员
会员更优惠充值送钱
直接购买按0.5元/页下载,共需要支付37
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文

点击收藏 | 在线购卡 | 站内搜索 | 网站地图
版权所有 艾博士论文 Copyright(C) All Rights Reserved
版权申明:本文摘要目录由会员***投稿,艾博士论文编辑,如作者需要删除论文目录请通过QQ告知我们,承诺24小时内删除。
联系方式: QQ:277865656