统计机器翻译中的词对齐研究

统计机器翻译论文 词对齐论文 结构化预测论文 同步句法分析论文 词对齐评价论文
论文详情
随着互联网的蓬勃发展,跨语言交流日益频繁,传统的基于人工的语言翻译己不能满足互联网中海量的、实时的翻译需求,机器翻译的研究应运而生。在不同类型的机器翻译研究中,统计机器翻译因其良好的自动学习能力和不同领域上较好的翻译效果而逐渐受到人们的青睐。词对齐是统计机器翻译的一项核心任务,它从双语平行语料中发掘互为翻译的语言片段,是翻译知识的主要来源。近年来,判别式的词对齐方法取得了较大的进展。与生成式模型相比,判别式模型更易于融入多样性的特征,因而具有更强的可扩展性,且往往能取得较好的性能。然而,判别式词对齐研究始终面临如下几个重要问题:首先,词对齐的搜索面临两难的困境,由于搜索空间巨大,精确搜索往往较为困难,而采用近似搜索的方法往往会对结果的准确性造成一定的影响。其次,判别式方法的学习过程往往依赖于人工标记的词对齐数据,而词对齐的标记数据数量较少、标记成本高昂。随着判别式模型中所使用特征数量的不断增长,相对不足的标记数据数量往往会影响学习效果。此外,长期以来用于衡量词对齐质量的指标(词对齐错误率,AER)与机器翻译的最终评价指标的相关性不强,这使得部分判别式学习的方法虽然能够显著降低词对齐错误率,但并不能显著提升翻译结果的质量。本文针对上述问题对判别式词对齐学习展开研究,主要工作包括:1、提高基于反向转换文法(ITG)的词对齐搜索效率:针对词对齐的结构性歧义问题,分析了歧义的产生原因,并提出了一种改进的ITG文法——LGFN文法,该文法可以有效地消除结构性歧义从而提高搜索效率;针对词对齐搜索中的剪枝问题提出了一种假设剪枝方法,该方法能够在进行同步句法分析的过程中,动态地对词对齐假设进行筛选,从而使得搜索被约束在较高质量的词对齐空间中,进一步提高了搜索的效率。2、针对人工标记的词对齐数据较少的问题提出了一种半监督的词对齐学习框架。该框架通过独立性假设将词对齐融合问题转换成二元分类问题,并采用半监督学习的方法,利用大量的未标记样本来提高分类模型的性能。与结构化的搜索方法相比,通过一系列的二元分类决策来完成词对齐任务提高了搜索的效率,使得大规模数据上的半监督学习变得可能。随着分类性能的提高,词对齐的学习结果也得到了相应的提升。3、通过分析词对齐错误对翻译规则生成的影响,提出了一种错误敏感的词对齐评价方法(ESAER)。该方法可以对不同类型、不同程度的词对齐错误施以不同的惩罚。与AER相比,ESAER兼顾了词对齐对机器翻译系统的影响,因而与机器翻译的结果评价指标具有更强的相关性。
摘要第1-5页
Abstract第5-13页
1 绪论第13-31页
   ·研究背景第13-16页
     ·机器翻译需求第13-15页
     ·机器翻译概述第15-16页
   ·统计机器翻译的相关研究第16-21页
     ·翻译知识的获取第16-17页
     ·翻译框架的建立第17-18页
     ·翻译规则的演化第18-21页
   ·词对齐的相关研究第21-27页
     ·生成式词对齐学习方法第22-23页
     ·判别式词对齐学习方法第23-26页
     ·判别式词对齐面临的问题第26-27页
   ·本文的主要工作第27-29页
   ·本文的组织结构第29-31页
2 基于LGFN文法的结构化词对齐融合模型第31-49页
   ·引言第31-34页
     ·词对齐搜索问题概述第31-34页
     ·词对齐融合问题第34页
   ·ITG的结构性歧义问题第34-40页
     ·ITG约束下的词对齐空间第35-36页
     ·结构性歧义的定义第36页
     ·结构化歧义的产生原因第36-38页
     ·LGFN文法第38-40页
   ·基于LGFN的词对齐融合框架第40-44页
     ·框架概述第40-41页
     ·基于对数线性模型的词对齐融合建模第41-43页
     ·基于MIRA的模型参数训练第43-44页
   ·实验及其分析第44-47页
     ·模拟实验第44-46页
     ·判别式学习实验第46-47页
   ·本章小结第47-49页
3 同步句法分析中的假设剪枝技术第49-65页
   ·引言第49-50页
   ·背景介绍第50-53页
     ·符号约定第50-51页
     ·同步句法分析第51-52页
     ·双语区间剪枝方法第52-53页
   ·假设剪枝技术第53-56页
     ·基本思想第53-54页
     ·解决方案第54-55页
     ·利用词对齐融合的剪枝第55-56页
   ·非单调情况下的搜索第56-58页
     ·非单调性问题及其处理策略第56-57页
     ·改进的搜索算法第57-58页
   ·实验及其分析第58-64页
     ·学习框架第58-59页
     ·实验数据与工具第59页
     ·区间剪枝和假设剪枝对比实验第59-61页
     ·加入并集作为剪枝约束第61-62页
     ·统计机器翻译实验第62-63页
     ·词对齐结果分析第63-64页
   ·本章小结第64-65页
4 一种半监督的词对齐融合框架第65-79页
   ·引言第65-67页
   ·基于二元分类的词对齐融合第67-70页
     ·二元分类问题第67页
     ·词对齐融合问题第67-68页
     ·学习模型和特征第68-70页
   ·半监督方法及其应用第70-73页
     ·Tri-training算法第70-71页
     ·基于采样的Tri-training算法第71-73页
   ·实验及其分析第73-78页
     ·实验数据和评价方法第73-74页
     ·词对齐结果对比第74-76页
     ·样本数量对学习性能的影响第76-77页
     ·统计机器翻译实验第77-78页
   ·本章小结第78-79页
5 一种错误敏感的词对齐评价标准第79-95页
   ·引言第79-81页
     ·词对齐研究第79-80页
     ·词对齐错误率第80-81页
   ·对齐错误与短语抽取第81-85页
     ·短语抽取第81-82页
     ·词对齐的错误分析第82-85页
   ·改进的词对齐评价标准第85-87页
     ·符号说明第85页
     ·单词的ESAER第85-86页
     ·单句和多句的ESAER第86-87页
     ·函数和参数设置第87页
   ·实验及其分析第87-92页
     ·实验设计第87页
     ·实验数据和工具第87-88页
     ·AER与BLEU的相关性实验第88-89页
     ·ESAER与BLEU的相关性第89-92页
   ·本章小结第92-95页
6 总结与展望第95-97页
   ·本文的主要贡献第95-96页
   ·未来的研究方向第96-97页
参考文献第97-107页
致谢第107-109页
攻读博士期间发表的论文和参加的项目第109-113页
论文购买
论文编号ABS536533,这篇论文共113页
会员购买按0.30元/页下载,共需支付33.9
不是会员,注册会员
会员更优惠充值送钱
直接购买按0.5元/页下载,共需要支付56.5
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文

点击收藏 | 在线购卡 | 站内搜索 | 网站地图
版权所有 艾博士论文 Copyright(C) All Rights Reserved
版权申明:本文摘要目录由会员***投稿,艾博士论文编辑,如作者需要删除论文目录请通过QQ告知我们,承诺24小时内删除。
联系方式: QQ:277865656