基于成对约束的半监督文本聚类算法研究

半监督学习论文 成对约束论文 文本聚类论文 主动学习论文
论文详情
随着互联网和信息技术的快速发展,人们在日常生活和工作中需要处理越来越多的文本,怎样才能快速有效的处理大量的文本成为一个亟待解决的问题。文本聚类是文本处理的重要技术。传统的文本聚类由于不需要事先对文本进行类别标注,也不需要训练过程,因此具有较高的自动化处理能力和一定的灵活性。然而,在实际应用中,我们在得到大量无标签样本的同时,也很容易得到少量有标签的样本,在这种情况下,传统的文本聚类算法便不能利用少量的标签信息来提高聚类性能。由于半监督学习能够同时利用无标签样本和有标签样本进行学习,目前正受到越来越多研究人员的关注。本文对文本聚类和半监督聚类算法进行了研究,为了提高文本聚类的性能,把半监督聚类算法引入到文本聚类中。半监督聚类算法对聚类性能的提高在很大程度上取决于半监督聚类算法所使用的监督信息。因此,监督信息的选取非常关键。针对这个问题,本文构造了一种主动选取成对约束的方法,首先利用模糊超体积找出划分最模糊的簇,然后在其边界上选出若干个样本,对每一个被选中的样本,在其相邻簇中找到与它最近的样本,由这两个样本构成一个成对约束。该方法能够选择具有较好指导作用的成对约束信息。为了能够利用少量的监督信息提高文本聚类的性能,本文提出了一种新的基于成对约束的半监督文本聚类算法。首先利用潜在语义分析方法对文本特征空间进行降维,然后在聚类过程中,利用新构造的约束选取方法主动地选取成对约束信息,并利用选取的成对约束信息指导文本聚类。为了验证本文提出的新的监督信息选取方法和基于成对约束的半监督文本聚类算法的有效性,本文在中文文本聚类实验平台上进行了多组实验,实验结果表明本文提出的新的监督信息选取方法能够选取更具指导意义的监督信息,本文提出的半监督文本聚类算法能够利用少量的监督信息有效的提高文本聚类的性能。
摘要第3-4页
ABSTRACT第4-5页
1 绪论第9-14页
    1.1 研究背景与研究意义第9页
    1.2 国内外研究现状第9-11页
        1.2.1 国外研究现状第9-11页
        1.2.2 国内研究现状第11页
    1.3 本文的主要工作第11-12页
    1.4 论文的组织结构第12-14页
2 文本聚类相关技术第14-25页
    2.1 文本聚类的定义及其特点第14-15页
        2.1.1 文本聚类的定义第14-15页
        2.1.2 文本聚类任务的特点第15页
    2.2 文本预处理第15-17页
        2.2.1 文本分词第16页
        2.2.2 去除停用词第16-17页
    2.3 文本表示模型第17-18页
        2.3.1 向量空间模型第17页
        2.3.2 布尔模型第17-18页
        2.3.3 概率模型第18页
    2.4 文本特征项的权值计算第18-19页
        2.4.1 词频(TF)方法第18页
        2.4.2 倒排文档频率(IDF)方法第18-19页
        2.4.3 TF*IDF 方法第19页
    2.5 文本特征集的缩减第19-21页
        2.5.1 潜在语义分析第19-20页
        2.5.2 互信息第20页
        2.5.3 信息增益第20页
        2.5.4 χ~2(CHI)统计量第20-21页
    2.6 常用文本聚类算法第21-23页
        2.6.1 基于划分的方法第21页
        2.6.2 基于层次的方法第21-22页
        2.6.3 基于密度的方法第22页
        2.6.4 基于网格的方法第22-23页
        2.6.5 基于模型的方法第23页
    2.7 文本聚类效果评价标准第23-24页
    2.8 本章小结第24-25页
3 半监督聚类算法的研究第25-37页
    3.1 半监督学习第25-28页
        3.1.1 半监督学习的研究背景第25-26页
        3.1.2 半监督学习的基本原理第26-27页
        3.1.3 半监督学习的基本假设第27-28页
        3.1.4 半监督学习的主要分类第28页
    3.2 半监督聚类第28-36页
        3.2.1 半监督聚类的定义第28-29页
        3.2.2 半监督聚类的分类第29-31页
        3.2.3 半监督聚类的相似性度量第31-33页
        3.2.4 几种常见的半监督聚类算法第33-36页
    3.3 本章小结第36-37页
4 基于成对约束的主动半监督文本聚类第37-45页
    4.1 主动学习策略简介第37页
    4.2 主动选取成对约束的方法第37-40页
        4.2.1 成对约束监督信息的作用第37-38页
        4.2.2 主动选取成对约束的方法第38-40页
    4.3 基于成对约束的竞争凝聚算法第40-43页
        4.3.1 竞争凝聚算法简介第40-41页
        4.3.2 基于成对约束的竞争凝聚算法第41-43页
    4.4 基于成对约束的主动半监督文本聚类方法第43-44页
    4.5 本章小结第44-45页
5 实验结果与分析第45-59页
    5.1 实验环境介绍及实验平台设计第45-48页
        5.1.1 实验环境介绍第45页
        5.1.2 实验平台设计第45-48页
    5.2 文本聚类实验平台的实现第48-53页
        5.2.1 文本预处理模块第48-49页
        5.2.3 特征项权值计算模块第49-50页
        5.2.4 特征集缩减模块第50页
        5.2.5 成对约束选取与半监督文本聚类模块第50-52页
        5.2.6 聚类结果评价及输出模块第52-53页
    5.3 实验结果及分析第53-57页
        5.3.1 语料库介绍第53页
        5.3.2 实验结果评价标准第53-54页
        5.3.3 实验结果与分析第54-57页
    5.4 本章小结第57-59页
6 总结与展望第59-61页
    6.1 总结第59页
    6.2 展望第59-61页
致谢第61-62页
参考文献第62-65页
附录第65页
    A. 作者在攻读学位期间发表的论文目录第65页
    B. 作者在攻读学位期间取得的科研成果目录第65页
论文购买
论文编号ABS812272,这篇论文共65页
会员购买按0.30元/页下载,共需支付19.5
不是会员,注册会员
会员更优惠充值送钱
直接购买按0.5元/页下载,共需要支付32.5
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文

点击收藏 | 在线购卡 | 站内搜索 | 网站地图
版权所有 艾博士论文 Copyright(C) All Rights Reserved
版权申明:本文摘要目录由会员***投稿,艾博士论文编辑,如作者需要删除论文目录请通过QQ告知我们,承诺24小时内删除。
联系方式: QQ:277865656