基于句法结构的术语关系抽取方法研究

自然语言处理论文 关系抽取论文 知识图谱论文 依存句法结构论文
论文详情
目前,互联网上的数据正在以指数的方式迅速增长,将互联网上内容丰富、形式多样的海量数据转化为知识并将其有效地存储和表示具有极其重要的意义。同时,伴随着自然语言处理技术的不断发展和成熟,从Web开放领域文本中抽取出有用的信息并以此构建知识图谱也成为可能。术语是在特定科学领域中使用的、相对固定的词或短语,可以用来正确标记各个专门领域中的事物、现象、特性、关系和过程,是科学研究和知识交流的有力工具。术语关系体现并表示了一个领域的核心知识,对理解学习领域知识、预测未来趋势具有重要的理论和现实意义。另外,术语关系也可以广泛应用到信息检索、自动问答系统、知识图谱构建等领域。然而,人工从大规模语料中抽取术语关系费时费力。因此自动或半自动抽取术语关系成为研究的热点。本文针对开放领域术语关系的获取进行了研究和探讨,提出了基于句法结构的术语关系抽取方法,并在此基础上构建医疗领域知识图谱,本文的主要贡献总结如下:(1)提出了高精度自举术语模板获取方法,在利用模板进行关系抽取的过程中,关系模板的质量直接影响着抽取结果的质量。我们充分利用Web数据的多样性进行自举迭代,将小规模的术语种子集扩展为大规模的术语关系库。并利用深度学习工具word2vec训练词向量并进行语义相似度计算,根据相似度排序,选择相似度最高的术语关系作为新的种子,其在一定程度上避免了传统自举方法中的语义漂移问题。(2)提出基于依存句法结构的术语关系抽取方法。该方法借助依存句法分析和语义角色标注技术,对语句的句法依存树进行最小子树裁剪,提取以动词为中心的具有语义依存关系的句子主干,使之既能涵盖术语关系的关键信息,又能减少依存句法分析错误所带来的噪音。通过对模板进行泛化,根据核心动词结合文本篇章分析对关系类别进行标注,并利用数据库进行结构化存储,实现快速查询。实验表明,基于句法结构的关系抽取方法能有效的利用结构化特征捕捉到术语语义关系。(3)提出多类型术语关系的知识图谱构建方法,知识图谱可以用结构化的形式描述客观世界的概念、实体、事件及其之间的关系,将信息转换成人类认知世界的形式。本文针对医疗知识图谱的特例研究,通过有效的知识整合解决了医疗数据中知识分散、异构、冗余和碎片化的问题。为机器进一步理解自然语言提供技术支持。为验证所提出方法的有效性,构建医疗领域知识图谱实例。实验结果表明,本文所提出的基于句法结构的术语关系抽取方法具有较高的实用性,实现了术语关系抽取、知识图谱构建过程中一定程度的自动化。
致谢第5-6页
摘要第6-8页
ABSTRACT第8-9页
1 引言第12-20页
    1.1 研究背景及意义第12-13页
    1.2 国内外研究现状第13-17页
        1.2.1 关系抽取研究现状第13-14页
        1.2.2 知识图谱研究现状第14-17页
    1.3 研究内容与结构安排第17-20页
2 相关理论与技术基础第20-32页
    2.1 依存句法概述第20-22页
    2.2 语义角色标注第22-24页
    2.3 关系抽取方法第24-27页
        2.3.1 基于规则的方法第24-25页
        2.3.2 基于有监督的统计学习方法第25-26页
        2.3.3 基于弱监督的统计学习方法第26-27页
    2.4 知识图谱构建的相关技术第27-31页
        2.4.1 知识获取第28页
        2.4.2 知识表示第28-30页
        2.4.3 知识存储第30-31页
    2.5 本章小结第31-32页
3 基于句法结构的术语关系获取第32-50页
    3.1 总体框架第33-34页
    3.2 语料树库的构建第34-40页
        3.2.1 依存句法分析与语义角色标注第35-36页
        3.2.2 最小子树裁剪第36-38页
        3.2.3 结构化存储第38-40页
    3.3 关系模板获取第40-44页
        3.3.1 模板表示方法第40-42页
        3.3.2 模板泛化方法第42-44页
    3.4 术语关系获取第44-45页
    3.5 种子术语扩展第45-46页
    3.6 实验结果与评测第46-49页
        3.6.1 实验数据与设置第46-47页
        3.6.2 关系模板评价第47-49页
    3.7 本章小结第49-50页
4 基于术语关系的知识图谱构建第50-57页
    4.1 医疗知识图谱的特例研究第50页
    4.2 知识图谱构建方法第50-52页
    4.3 知识图谱可视化第52-53页
    4.4 实验结果与评测第53-56页
        4.4.1 实验数据与设置第53页
        4.4.2 实验结果与分析第53-56页
    4.5 本章小结第56-57页
5 结论第57-59页
参考文献第59-61页
作者简历及攻读硕士学位期间取得的研究成果第61-63页
学位论文数据集第63页
论文购买
论文编号ABS3046244,这篇论文共63页
会员购买按0.30元/页下载,共需支付18.9
不是会员,注册会员
会员更优惠充值送钱
直接购买按0.5元/页下载,共需要支付31.5
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文

点击收藏 | 在线购卡 | 站内搜索 | 网站地图
版权所有 艾博士论文 Copyright(C) All Rights Reserved
版权申明:本文摘要目录由会员***投稿,艾博士论文编辑,如作者需要删除论文目录请通过QQ告知我们,承诺24小时内删除。
联系方式: QQ:277865656