首页--工业技术--自动化技术、计算机技术--计算技术、计算机技术--计算机的应用--信息处理（信息加工）--文字信息处理

基于句法结构的术语关系抽取方法研究

自然语言处理论文关系抽取论文知识图谱论文依存句法结构论文

论文详情

目前,互联网上的数据正在以指数的方式迅速增长,将互联网上内容丰富、形式多样的海量数据转化为知识并将其有效地存储和表示具有极其重要的意义。同时,伴随着自然语言处理技术的不断发展和成熟,从Web开放领域文本中抽取出有用的信息并以此构建知识图谱也成为可能。术语是在特定科学领域中使用的、相对固定的词或短语,可以用来正确标记各个专门领域中的事物、现象、特性、关系和过程,是科学研究和知识交流的有力工具。术语关系体现并表示了一个领域的核心知识,对理解学习领域知识、预测未来趋势具有重要的理论和现实意义。另外,术语关系也可以广泛应用到信息检索、自动问答系统、知识图谱构建等领域。然而,人工从大规模语料中抽取术语关系费时费力。因此自动或半自动抽取术语关系成为研究的热点。本文针对开放领域术语关系的获取进行了研究和探讨,提出了基于句法结构的术语关系抽取方法,并在此基础上构建医疗领域知识图谱,本文的主要贡献总结如下:(1)提出了高精度自举术语模板获取方法,在利用模板进行关系抽取的过程中,关系模板的质量直接影响着抽取结果的质量。我们充分利用Web数据的多样性进行自举迭代,将小规模的术语种子集扩展为大规模的术语关系库。并利用深度学习工具word2vec训练词向量并进行语义相似度计算,根据相似度排序,选择相似度最高的术语关系作为新的种子,其在一定程度上避免了传统自举方法中的语义漂移问题。(2)提出基于依存句法结构的术语关系抽取方法。该方法借助依存句法分析和语义角色标注技术,对语句的句法依存树进行最小子树裁剪,提取以动词为中心的具有语义依存关系的句子主干,使之既能涵盖术语关系的关键信息,又能减少依存句法分析错误所带来的噪音。通过对模板进行泛化,根据核心动词结合文本篇章分析对关系类别进行标注,并利用数据库进行结构化存储,实现快速查询。实验表明,基于句法结构的关系抽取方法能有效的利用结构化特征捕捉到术语语义关系。(3)提出多类型术语关系的知识图谱构建方法,知识图谱可以用结构化的形式描述客观世界的概念、实体、事件及其之间的关系,将信息转换成人类认知世界的形式。本文针对医疗知识图谱的特例研究,通过有效的知识整合解决了医疗数据中知识分散、异构、冗余和碎片化的问题。为机器进一步理解自然语言提供技术支持。为验证所提出方法的有效性,构建医疗领域知识图谱实例。实验结果表明,本文所提出的基于句法结构的术语关系抽取方法具有较高的实用性,实现了术语关系抽取、知识图谱构建过程中一定程度的自动化。

致谢	第5-6页
摘要	第6-8页
ABSTRACT	第8-9页
1 引言	第12-20页
1.1 研究背景及意义	第12-13页
1.2 国内外研究现状	第13-17页
1.2.1 关系抽取研究现状	第13-14页
1.2.2 知识图谱研究现状	第14-17页
1.3 研究内容与结构安排	第17-20页
2 相关理论与技术基础	第20-32页
2.1 依存句法概述	第20-22页
2.2 语义角色标注	第22-24页
2.3 关系抽取方法	第24-27页
2.3.1 基于规则的方法	第24-25页
2.3.2 基于有监督的统计学习方法	第25-26页
2.3.3 基于弱监督的统计学习方法	第26-27页
2.4 知识图谱构建的相关技术	第27-31页
2.4.1 知识获取	第28页
2.4.2 知识表示	第28-30页
2.4.3 知识存储	第30-31页
2.5 本章小结	第31-32页
3 基于句法结构的术语关系获取	第32-50页
3.1 总体框架	第33-34页
3.2 语料树库的构建	第34-40页
3.2.1 依存句法分析与语义角色标注	第35-36页
3.2.2 最小子树裁剪	第36-38页
3.2.3 结构化存储	第38-40页
3.3 关系模板获取	第40-44页
3.3.1 模板表示方法	第40-42页
3.3.2 模板泛化方法	第42-44页
3.4 术语关系获取	第44-45页
3.5 种子术语扩展	第45-46页
3.6 实验结果与评测	第46-49页
3.6.1 实验数据与设置	第46-47页
3.6.2 关系模板评价	第47-49页
3.7 本章小结	第49-50页
4 基于术语关系的知识图谱构建	第50-57页
4.1 医疗知识图谱的特例研究	第50页
4.2 知识图谱构建方法	第50-52页
4.3 知识图谱可视化	第52-53页
4.4 实验结果与评测	第53-56页
4.4.1 实验数据与设置	第53页
4.4.2 实验结果与分析	第53-56页
4.5 本章小结	第56-57页
5 结论	第57-59页
参考文献	第59-61页
作者简历及攻读硕士学位期间取得的研究成果	第61-63页
学位论文数据集	第63页

论文购买

论文编号ABS3046244，这篇论文共63页

会员购买按0.30元/页下载，共需支付18.9。

会员购买

不是会员，注册会员！
会员更优惠充值送钱！

直接购买按0.5元/页下载，共需要支付31.5。

直接购买

只需这篇论文，无需注册！
直接网上支付，方便快捷！