数据挖掘中聚类集成与半监督聚类研究

数据挖掘论文 聚类分析论文 聚类集成论文 自组织特征映射论文
论文详情
在数据挖掘领域,聚类分析作为一种重要的方法,能够发现数据对象自然的分布结构。通过一种事先给定的相似性测度方式,所有的数据对象被分割成若干不连续的组,并保证同一组数据的相似性更大,不同组数据的相似性更小。传统的聚类算法是一种无监督方法,它按照不同的优化准则对数据进行分割,没有考虑用户或真实世界提供的任何先验知识。尽管目前许多新型或改进的算法被提出,但仍然难以找到一种单一的算法可以探索各种数据对象分布结构。为了提高无监督聚类算法的性能,聚类集成技术和半监督聚类技术应运而生。受分类集成技术的启示,聚类集成作为当今的研究热点已被证明能有效地提高传统聚类算法的性能。它综合多种不同聚类算法或不同初始参数的同一聚类算法产生的划分,可获得比单一聚类算法更好的聚类结果。共识函数的设计是聚类集成最关键的问题,也是目前研究的重点。本文提出一种基于自组织特征映射(SOM)的聚类集成算法。该算法首先利用多个具有差异性的聚类成员,将原始数据集转换成一个新的特征空间矩阵,然后计算各个聚类成员的聚类综合质量,并将其作为新特征空间矩阵的属性权重,最后利用SOM神经网络进行集成,产生最终的共识聚类结果。实验结果表明,与集成前的基聚类算法和其他聚类集成算法的结果相比较,该算法能够有效提高聚类质量。半监督聚类利用诸如种子集或成对约束等先验知识获得更好的聚类结果。相比于无监督聚类分析,半监督聚类利用提供的少量监督信息协助指导聚类过程。成对约束是先验知识中最普遍的,目前许多半监督聚类算法都基于此类约束形式。本文对基于成对约束的Cop-Kmeans算法进行了详细地介绍,并提出了一种改进的Cop-Kmeans算法,用以解决Cop-Kmeans算法的约束违反问题。针对目前许多半监督聚类算法对数据样本分配顺序的敏感性,给出了一种根据样本确定度的大小产生样本分配顺序的方法。另外,本文将成对约束融入SOM算法,给出了一种基于成对约束的半监督SOM算法,并将其作为共识函数尝试对多个半监督聚类划分结果进行集成。最后,通过实验验证上述方法的有效性。
摘要第6-7页
Abstract第7-8页
第1章 绪论第11-16页
    1.1 本文研究背景第11-12页
    1.2 国内外研究现状第12-14页
        1.2.1 聚类集成研究现状第12-13页
        1.2.2 半监督聚类研究现状第13-14页
    1.3 本文主要内容和结构安排第14-16页
第2章 数据挖掘与聚类分析概述第16-23页
    2.1 数据挖掘第16-19页
        2.1.1 数据挖掘概述第16页
        2.1.2 数据挖掘的步骤和任务第16-17页
        2.1.3 数据挖掘的工具和应用第17-19页
    2.2 聚类分析第19-23页
        2.2.1 聚类分析概述第19-20页
        2.2.2 聚类分析中的相似性度量第20页
        2.2.3 聚类分析中的主要方法第20-23页
第3章 聚类集成第23-34页
    3.1 聚类集成概述第23-24页
    3.2 差异性聚类成员生成方法第24-25页
    3.3 共识函数设计方法第25-27页
    3.4 基于自组织特征映射的聚类集成算法第27-34页
        3.4.1 自组织特征映射第27-29页
        3.4.2 聚类综合质量第29-30页
        3.4.3 特征空间变换第30-32页
        3.4.4 聚类成员加权第32页
        3.4.5 基于SOM的聚类集成算法第32-34页
第4章 半监督聚类分析第34-48页
    4.1 半监督聚类分析概述第34-35页
    4.2 先验知识的形式第35-36页
    4.3 改进的Cop-Kmeans算法第36-41页
        4.3.1 Cop-Kmeans算法的原理第36-37页
        4.3.2 Cop-Kmeans算法的缺陷第37-39页
        4.3.3 改进的Cop-Kmeans算法ICop-Kmeans第39-41页
    4.4 基于样本确定度的半监督聚类算法样本分配顺序第41-45页
        4.4.1 半监督聚类算法中样本顺序敏感性分析第41-43页
        4.4.2 基于互信息加权的共联矩阵第43页
        4.4.3 样本确定度第43-45页
        4.4.4 新的样本分配顺序第45页
    4.5 基于成对约束的半监督SOM算法Cop-Som第45-47页
    4.6 基于Cop-Som的半监督聚类集成算法第47-48页
第5章 聚类实验结果和分析第48-69页
    5.1 实验数据集第48页
    5.2 实验评价方法第48-49页
    5.3 SOM聚类集成实验第49-52页
    5.4 半监督聚类实验第52-69页
        5.4.1 ICop-Kmeans算法和Cop-Kmeans算法比较第52-57页
        5.4.2 ICop-Kmeans算法对输入样本顺序敏感性实验第57-63页
        5.4.3 Cop-Som算法实验第63-65页
        5.4.4 基于Cop-Som的半监督聚类集成实验第65-69页
结论与展望第69-71页
致谢第71-72页
参考文献第72-77页
攻读硕士学位期间发表的论文第77-78页
论文购买
论文编号ABS883517,这篇论文共78页
会员购买按0.30元/页下载,共需支付23.4
不是会员,注册会员
会员更优惠充值送钱
直接购买按0.5元/页下载,共需要支付39
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文

点击收藏 | 在线购卡 | 站内搜索 | 网站地图
版权所有 艾博士论文 Copyright(C) All Rights Reserved
版权申明:本文摘要目录由会员***投稿,艾博士论文编辑,如作者需要删除论文目录请通过QQ告知我们,承诺24小时内删除。
联系方式: QQ:277865656