机器学习通过研究计算机如何模拟人类的学习行为以获取新的知识或技能,重新组织已有的知识结构达到不断改善自身性能的目的。但是机器学习有一个很重要的假设前提,就是训练数据和测试数据必须服从相同的数据分布。这给实际应用带来了很大的麻烦。如今信息更新迅速,当出现一个新的领域时,样本空间的数据往往较少、特征稀疏,此时再利用传统的机器学习对数据分类就会产生较大的泛化误差。迁移学习是一种跨领域、跨任务的学习方法。当目标领域带标签的数据非常少时,单独学习难以达到较好的性能。迁移学习通过对多个相似领域、任务之间知识的迁移与共享,达到使单个目标任务性能提高的目的。这一特点使得迁移学习能很好地解决机器学习中数据稀疏性问题。针对已有迁移学习方法中存在需要提前提供源领域数据集、或者只考虑文本的语义信息、或者只考虑保持文本的数据结构的问题,本文提出一种基于潜在语义分析的迁移学习方法。首先,从目标文本数据中提取关键词输入某搜索引擎,选取前几页文本作为最相关数据,利用扩展的潜在语义分析方法从目标领域数据中提取出与目标分类标签语义相关的关键词作为种子特征集;然后,从社交媒体无向图中提取包含所有种子特征集的子图,利用扩展的拉普拉斯特征映射方法,将每个数据在一个低维的潜在语义空间中表示出来;最后,以SVM分类方法为基分类器对目标测试文本数据进行分类。实验结果表明本文方法在目标分类器的分类精度上优于传统的机器学习和迁移学习方法,并且本文方法并不需要提前给出源领域数据,减轻了源领域数据提供者的负担。