多标记分类及其应用是当前机器学习和数据挖掘领域的热点问题,其中多标记维度约减和多标记集成分类是非常值得研究和探讨的两个方向。传统机器学习的研究对象是数据样本仅具有一个标记的单标记问题,而本文主要研究样本同时具有多个标记的多标记问题。论文研究了多标记分类、半监督学习、维度约减和集成学习的基本方法及其在各种数据集上的应用,并分别从数据预处理和分类器集成两个角度,研究了如何结合半监督学习对高维多标记数据进行维度约减和如何利用集成学习提高多标记分类的性能。实际中常遇到高维多标记数据仅有少量标记样本而大部分样本却没有标记的情况,为了有效去除冗余特征并使用未标记样本提供的潜在信息,将半监督学习引入到多标记维度约减中,提出基于半监督判别分析的多标记维度约减算法(MSDA)。该算法利用标记样本的属性图加权矩阵和部分标记的相似关联矩阵,最大化不同类别样本之间的分离度,同时使用未标记样本估计原始高维数据在低维数据流行上的内在几何结构。实验表明,MSDA算法在多个分类评价指标上的平均性能均优于其他方法,证实了算法的有效性。针对多标记数据的分类性能不理想的问题,将集成学习引入到多标记分类中,提出一种基于软成对约束投影的多标记集成算法(SPACME)。该算法通过重采样训练样本提供的软成对约束信息建立初始基分类器,利用获得的cannot-link集合和must-link集合构建约束投影矩阵,并将原始数据映射到新的数据空间表示,然后在转换后的数据集上使用权重更新策略迭代地训练一组基分类器以增加差异性,最后对多个基分类器的结果使用多数投票的方法输出标记集。实验表明,SPACME算法利用软成对约束信息明显提高了多标记数据的分类准确率等各项性能,且算法具有良好的健壮性。