首页--工业技术--自动化技术、计算机技术--计算技术、计算机技术--计算机的应用--信息处理（信息加工）--翻译机

统计机器翻译中的词对齐研究

统计机器翻译论文词对齐论文结构化预测论文同步句法分析论文词对齐评价论文

论文详情

随着互联网的蓬勃发展,跨语言交流日益频繁,传统的基于人工的语言翻译己不能满足互联网中海量的、实时的翻译需求,机器翻译的研究应运而生。在不同类型的机器翻译研究中,统计机器翻译因其良好的自动学习能力和不同领域上较好的翻译效果而逐渐受到人们的青睐。词对齐是统计机器翻译的一项核心任务,它从双语平行语料中发掘互为翻译的语言片段,是翻译知识的主要来源。近年来,判别式的词对齐方法取得了较大的进展。与生成式模型相比,判别式模型更易于融入多样性的特征,因而具有更强的可扩展性,且往往能取得较好的性能。然而,判别式词对齐研究始终面临如下几个重要问题：首先,词对齐的搜索面临两难的困境,由于搜索空间巨大,精确搜索往往较为困难,而采用近似搜索的方法往往会对结果的准确性造成一定的影响。其次,判别式方法的学习过程往往依赖于人工标记的词对齐数据,而词对齐的标记数据数量较少、标记成本高昂。随着判别式模型中所使用特征数量的不断增长,相对不足的标记数据数量往往会影响学习效果。此外,长期以来用于衡量词对齐质量的指标(词对齐错误率,AER)与机器翻译的最终评价指标的相关性不强,这使得部分判别式学习的方法虽然能够显著降低词对齐错误率,但并不能显著提升翻译结果的质量。本文针对上述问题对判别式词对齐学习展开研究,主要工作包括：1、提高基于反向转换文法(ITG)的词对齐搜索效率：针对词对齐的结构性歧义问题,分析了歧义的产生原因,并提出了一种改进的ITG文法——LGFN文法,该文法可以有效地消除结构性歧义从而提高搜索效率；针对词对齐搜索中的剪枝问题提出了一种假设剪枝方法,该方法能够在进行同步句法分析的过程中,动态地对词对齐假设进行筛选,从而使得搜索被约束在较高质量的词对齐空间中,进一步提高了搜索的效率。2、针对人工标记的词对齐数据较少的问题提出了一种半监督的词对齐学习框架。该框架通过独立性假设将词对齐融合问题转换成二元分类问题,并采用半监督学习的方法,利用大量的未标记样本来提高分类模型的性能。与结构化的搜索方法相比,通过一系列的二元分类决策来完成词对齐任务提高了搜索的效率,使得大规模数据上的半监督学习变得可能。随着分类性能的提高,词对齐的学习结果也得到了相应的提升。3、通过分析词对齐错误对翻译规则生成的影响,提出了一种错误敏感的词对齐评价方法(ESAER)。该方法可以对不同类型、不同程度的词对齐错误施以不同的惩罚。与AER相比,ESAER兼顾了词对齐对机器翻译系统的影响,因而与机器翻译的结果评价指标具有更强的相关性。

摘要	第1-5页
Abstract	第5-13页
1 绪论	第13-31页
·研究背景	第13-16页
·机器翻译需求	第13-15页
·机器翻译概述	第15-16页
·统计机器翻译的相关研究	第16-21页
·翻译知识的获取	第16-17页
·翻译框架的建立	第17-18页
·翻译规则的演化	第18-21页
·词对齐的相关研究	第21-27页
·生成式词对齐学习方法	第22-23页
·判别式词对齐学习方法	第23-26页
·判别式词对齐面临的问题	第26-27页
·本文的主要工作	第27-29页
·本文的组织结构	第29-31页
2 基于LGFN文法的结构化词对齐融合模型	第31-49页
·引言	第31-34页
·词对齐搜索问题概述	第31-34页
·词对齐融合问题	第34页
·ITG的结构性歧义问题	第34-40页
·ITG约束下的词对齐空间	第35-36页
·结构性歧义的定义	第36页
·结构化歧义的产生原因	第36-38页
·LGFN文法	第38-40页
·基于LGFN的词对齐融合框架	第40-44页
·框架概述	第40-41页
·基于对数线性模型的词对齐融合建模	第41-43页
·基于MIRA的模型参数训练	第43-44页
·实验及其分析	第44-47页
·模拟实验	第44-46页
·判别式学习实验	第46-47页
·本章小结	第47-49页
3 同步句法分析中的假设剪枝技术	第49-65页
·引言	第49-50页
·背景介绍	第50-53页
·符号约定	第50-51页
·同步句法分析	第51-52页
·双语区间剪枝方法	第52-53页
·假设剪枝技术	第53-56页
·基本思想	第53-54页
·解决方案	第54-55页
·利用词对齐融合的剪枝	第55-56页
·非单调情况下的搜索	第56-58页
·非单调性问题及其处理策略	第56-57页
·改进的搜索算法	第57-58页
·实验及其分析	第58-64页
·学习框架	第58-59页
·实验数据与工具	第59页
·区间剪枝和假设剪枝对比实验	第59-61页
·加入并集作为剪枝约束	第61-62页
·统计机器翻译实验	第62-63页
·词对齐结果分析	第63-64页
·本章小结	第64-65页
4 一种半监督的词对齐融合框架	第65-79页
·引言	第65-67页
·基于二元分类的词对齐融合	第67-70页
·二元分类问题	第67页
·词对齐融合问题	第67-68页
·学习模型和特征	第68-70页
·半监督方法及其应用	第70-73页
·Tri-training算法	第70-71页
·基于采样的Tri-training算法	第71-73页
·实验及其分析	第73-78页
·实验数据和评价方法	第73-74页
·词对齐结果对比	第74-76页
·样本数量对学习性能的影响	第76-77页
·统计机器翻译实验	第77-78页
·本章小结	第78-79页
5 一种错误敏感的词对齐评价标准	第79-95页
·引言	第79-81页
·词对齐研究	第79-80页
·词对齐错误率	第80-81页
·对齐错误与短语抽取	第81-85页
·短语抽取	第81-82页
·词对齐的错误分析	第82-85页
·改进的词对齐评价标准	第85-87页
·符号说明	第85页
·单词的ESAER	第85-86页
·单句和多句的ESAER	第86-87页
·函数和参数设置	第87页
·实验及其分析	第87-92页
·实验设计	第87页
·实验数据和工具	第87-88页
·AER与BLEU的相关性实验	第88-89页
·ESAER与BLEU的相关性	第89-92页
·本章小结	第92-95页
6 总结与展望	第95-97页
·本文的主要贡献	第95-96页
·未来的研究方向	第96-97页
参考文献	第97-107页
致谢	第107-109页
攻读博士期间发表的论文和参加的项目	第109-113页

论文购买

论文编号ABS536533，这篇论文共113页

会员购买按0.30元/页下载，共需支付33.9。

会员购买

不是会员，注册会员！
会员更优惠充值送钱！

直接购买按0.5元/页下载，共需要支付56.5。

直接购买

只需这篇论文，无需注册！
直接网上支付，方便快捷！