蛋白质名字识别系统的研究与实现

信息提取论文 蛋白质名字论文 边界确定论文 词形特征论文
论文详情
为了更好地理解生物过程,我们必须准确阐述生物体间的相互作用,尤其是蛋白质之间的相互作用。但目前生物医学领域内的大量信息埋藏于数以百万计的科学文献当中,并且此数目仍在不断的增长。因此,对海量生物医学文献的自动、高效、智能化的信息提取,成为生物信息学领域内,具有挑战性的课题。我们实验室于 2004 年开始对此课题进行研究。通过在生物学文献中自动提取出蛋白质相互作用模板的方式,实现了基于科学文献的蛋白质相互作用关系提取系统 SPIES(Scientific-literature-based Protein InteractionExtraction System)。而蛋白质名字实体的识别结果直接关系到 SPIES 提取系统的性能。本文运用机器学习的方法,设计并实现了一个自动识别蛋白质名字实体的系统 Ne4Pro(Named Entity recognition system for Proteinnames )。该系统能够从生物学文献中自动识别、提取蛋白质名实体,并将识别结果与蛋白质序列数据库中的关联实体建立联系。在 Ne4Pro 中,我们将名字识别问题划分为三个主要的任务:(1)词语识别任务:确定文本中的词语能否成为名字实体的组成部分。该任务可以形式化表达为对当前词的二分类任务,我们需要一个二分类器对文本中出现的词语分为是名字实体的,不是名字实体的两类。该任务是三个任务中,计算量最大的,也是最基础的任务,它的实现情况直接影响到后继任务的开展。因此所选择的分类特征应尽可能全面,可以覆盖所有类型的名字实体。(2)实体边界确定任务:确定名字实体开始和结束的边界。该任务可以分为扩展边界确定和按优先级确定名字实体边界。所谓扩展边界确定就是收集由上个任务识别得到的名字实体词语周围的词语,通过规则,正规化,字典等方法确定开始和结束边界;按优先级确定名字实体边界是指当名字实体边界确定中出现歧义的时候,按照划分需求给与不同的优先级,为名字实体确定符合需求的定界方案。和扩展边界确定相比较,按优先级确定名字实体边界的方法更为敏感,对先验命名规则的依赖性更大。
摘要第3-7页
Abstract第7页
Table of Contents第9-12页
Chapter 1 Introduction第12-22页
    1.1 Named Entity Recognition in Biomedicine第12-13页
    1.2 Problems in Biomedical Named Entity Recognition第13-15页
    1.3 Summary of Proposed Work第15-17页
    1.4 Research Hypothesis第17-18页
    1.5 Research Assumptions第18页
    1.6 Contributions第18-20页
    1.7 Overview of the Thesis第20-22页
Chapter 2 Review of Previous Works第22-43页
    2.1 Dictionary Based Method第22-23页
    2.2 Rule Based Method第23-26页
    2.3 Machine Learning Based Method第26-38页
    2.4 Advantages and Disadvantages第38-40页
    2.5 Evaluation第40页
    2.6 Previous Work that are related to Thesis’Development第40-41页
    2.7 Summary第41-43页
Chapter 3 Features and Limitations on Previous Approaches第43-72页
    3.1 Information Features第43-45页
        3.1.1 Internal Information第43-44页
        3.1.2 External Information第44-45页
    3.2 Kinds of feature第45-66页
        3.2.1 Orthographic Feature第45-47页
        3.2.2 Morphology Feature第47页
        3.2.3 Part of Speech Feature (POS)第47-50页
        3.2.4 Term Feature第50-54页
        3.2.5 Word Shape Feature第54-60页
        3.2.6 Unigram and Bi-gram第60-66页
    3.3 Limitations of Previous Approaches第66-68页
        3.3.1 Features第66-67页
        3.3.2 Boundary Problems第67-68页
        3.3.3 Cascading Problems第68页
    3.4 Difficulties in Integrated Previous Approaches第68-69页
    3.5 Our Approaches第69-70页
    3.6 Summary第70-72页
Chapter 4 Protein Named Entity Classification第72-89页
    4.1 Definition of Named Entity Classification Problem第72-77页
        4.1.1 Named Entity Identification task第74页
        4.1.2 Named Entity Boundary Fixation task第74-77页
        4.1.3 Named Entity Classification task第77页
    4.2 Methods第77-87页
        4.2.1 Dictionary Preservation第78-81页
        4.2.2 Entity Identification第81-82页
        4.2.3 Entity Boundary Fixation第82-84页
        4.2.4 Entity Semantic Classification第84-87页
    4.3 Summary第87-89页
Chapter 5 Experiments and Evaluations第89-105页
    5.1 Experiments第89-101页
        5.1.1 Our Proposed Feature第89-91页
        5.1.2 Entity Identification Task第91-92页
        5.1.3 Entity Boundary Fixation Task第92-95页
        5.1.4 Entity Semantic Classification Task第95-100页
        5.1.5 Overall System Performance第100-101页
    5.2 Evaluations第101-103页
    5.3 Summary and Conclusion第103-105页
Chapter 6 Generalization, Limitation and Future Work第105-108页
    6.1 Generalizability第105页
    6.2 Limitations第105-107页
    6.3 Future Works第107页
    6.4 Summary第107-108页
References第108-112页
Acknowledgements第112页
声明第112-113页
个人简历、在学期间发表的学术论文与研究成果第113页
论文购买
论文编号ABS1661842,这篇论文共113页
会员购买按0.30元/页下载,共需支付33.9
不是会员,注册会员
会员更优惠充值送钱
直接购买按0.5元/页下载,共需要支付56.5
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文

点击收藏 | 在线购卡 | 站内搜索 | 网站地图
版权所有 艾博士论文 Copyright(C) All Rights Reserved
版权申明:本文摘要目录由会员***投稿,艾博士论文编辑,如作者需要删除论文目录请通过QQ告知我们,承诺24小时内删除。
联系方式: QQ:277865656