随着互联网的蓬勃发展,跨语言交流日益频繁,传统的基于人工的语言翻译己不能满足互联网中海量的、实时的翻译需求,机器翻译的研究应运而生。在不同类型的机器翻译研究中,统计机器翻译因其良好的自动学习能力和不同领域上较好的翻译效果而逐渐受到人们的青睐。词对齐是统计机器翻译的一项核心任务,它从双语平行语料中发掘互为翻译的语言片段,是翻译知识的主要来源。近年来,判别式的词对齐方法取得了较大的进展。与生成式模型相比,判别式模型更易于融入多样性的特征,因而具有更强的可扩展性,且往往能取得较好的性能。然而,判别式词对齐研究始终面临如下几个重要问题:首先,词对齐的搜索面临两难的困境,由于搜索空间巨大,精确搜索往往较为困难,而采用近似搜索的方法往往会对结果的准确性造成一定的影响。其次,判别式方法的学习过程往往依赖于人工标记的词对齐数据,而词对齐的标记数据数量较少、标记成本高昂。随着判别式模型中所使用特征数量的不断增长,相对不足的标记数据数量往往会影响学习效果。此外,长期以来用于衡量词对齐质量的指标(词对齐错误率,AER)与机器翻译的最终评价指标的相关性不强,这使得部分判别式学习的方法虽然能够显著降低词对齐错误率,但并不能显著提升翻译结果的质量。本文针对上述问题对判别式词对齐学习展开研究,主要工作包括:1、提高基于反向转换文法(ITG)的词对齐搜索效率:针对词对齐的结构性歧义问题,分析了歧义的产生原因,并提出了一种改进的ITG文法——LGFN文法,该文法可以有效地消除结构性歧义从而提高搜索效率;针对词对齐搜索中的剪枝问题提出了一种假设剪枝方法,该方法能够在进行同步句法分析的过程中,动态地对词对齐假设进行筛选,从而使得搜索被约束在较高质量的词对齐空间中,进一步提高了搜索的效率。2、针对人工标记的词对齐数据较少的问题提出了一种半监督的词对齐学习框架。该框架通过独立性假设将词对齐融合问题转换成二元分类问题,并采用半监督学习的方法,利用大量的未标记样本来提高分类模型的性能。与结构化的搜索方法相比,通过一系列的二元分类决策来完成词对齐任务提高了搜索的效率,使得大规模数据上的半监督学习变得可能。随着分类性能的提高,词对齐的学习结果也得到了相应的提升。3、通过分析词对齐错误对翻译规则生成的影响,提出了一种错误敏感的词对齐评价方法(ESAER)。该方法可以对不同类型、不同程度的词对齐错误施以不同的惩罚。与AER相比,ESAER兼顾了词对齐对机器翻译系统的影响,因而与机器翻译的结果评价指标具有更强的相关性。