高维高噪声数据聚类中关键问题研究

高维数据论文 子空间聚类论文 健壮聚类论文 高斯混合模型论文 局部特征相关性论文 初始化论文
论文详情
随着科技的进步,高维高噪声数据聚类在数据挖掘研究领域中处于越来越重要的地位。聚类分析作为数据挖掘的一项主要研究课题,已引起广泛重视,同时产生了大量的理论和方法,并取得了丰硕的研究成果。尽管如此,聚类仍面临着许多问题,尤其随着数据挖掘技术的广泛应用,数据对象变得日趋复杂,大量的高维数据和高噪声数据不断出现,使得聚类研究面临着“维数灾难”和聚类结果对噪声敏感等问题的挑战。这要求改进现有聚类技术,同时提出新的聚类理论和方法以适应新的应用。本文对高维数据聚类以及健壮聚类等问题进行了较为深入的研究,主要内容包括以下几个方面:1.针对高维数据聚类任务中类簇的形状体积常存在差异,提出了一种基于高斯混合模型(Gaussian mixture model, GMM)的子空间聚类算法。高维数据中,样本类簇通常处于子空间,且不同类簇形状可能存在差异。许多现有高维数据聚类算法仅考虑前一个因素,而对不同类簇采用同一形状体积参数。针对此问题,扩展了现有GMM聚类过程,对每个类簇计算一个权矢量和一个局部方差,并利用它们分别鉴定类簇的主要特性,包括类簇的相关维度和形状体积,从而区分不同类簇。该问题通过在GMM目标函数中加入权矢量的负熵项及自适应系数得到求解。在仿真数据和真实数据上的实验结果表明了该算法在高维数据集应用中的优越性。2.针对高维数据聚类任务对噪声敏感的问题,提出了一种健壮的样本加权子空间聚类(Sample weighting subspace clustering, SWSC)算法。该算法基于样本加权思想,为每个样本分配一个反映离群程度的尺度参数,从而实现健壮聚类。各类簇所处的子空间继而由尺度加权的样本所确定。该算法首次将样本加权思想运用于硬划分类型的聚类算法。在二维仿真数据集、高维仿真数据集以及真实基因数据集上的对比实验结果表明,对于具有不同噪声比例的各种维度数据集,该算法均能取得较高的聚类精度,表现出较强的健壮性。3.从特征选择角度,针对高维数据聚类任务中不同类簇常具有不同相关特征子集的特点,提出了一种基于约束混合模型(Constraint weighting mixture model, CWMM)的局部特征选择聚类算法。该算法基于现有局部特征选择混合模型,将类簇在任一维度上不相关特定分布改进为与其他类簇共同服从的同一分布,从而捕获类簇间的共性分布。类簇在任一维度上的分布由相关固有分布和同一分布加权和组合而成,两种分布的权重高低决定相应维度参与识别类簇的相关程度。算法通过对相应模型的似然函数引入各类维度权重参数的约束项实现参数估计。那些对类簇固有分布具有较大权重的维度,即组成相应类簇的局部特征子集。实验对比了不同算法在仿真数据和真实数据上的聚类性能,结果表明所提算法在类簇重叠现象的高维数据上表现出较现有子空间聚类算法更强的性能。4.为了提高迭代优化健壮聚类算法对噪声污染数据的聚类质量,提出了一种基于K-Means均匀效应的健壮聚类初始化算法。K-Means聚类结果中各子簇样本量具有均匀一致的特点,当使用超过实际聚类数进行聚类时,将出现稀疏子簇范围大,稠密子簇范围小,以及相邻稠密子簇范围相当等现象。算法利用超过实际聚类数的K-Means聚类,通过合并邻近小子簇、丢弃稀疏大子簇,自动获得聚类初始簇并有效地消除噪声,从而实现健壮的聚类初始化。理论和实验证明了该算法的有效性。5.针对严重噪声污染数据聚类问题,提出了一种基于自适应多测度Lq范数的健壮聚类算法。该算法利用Lq范数求解数据中心时对噪声不敏感的特性,对各类簇采用Lq范数距离测度,且对不同类簇设定相应参数qk(qk∈(1,2]),以适应类簇中不同噪声污染程度的建模需求。通过为各类簇建立一个有关参数qk的非线性变换,自适应求解参数qk,并获得健壮类簇中心。此外,算法基于聚类所得中心,给出了噪声检测过程。在仿真数据和真实数据上的实验结果均证实了所提算法在健壮中心估计和噪声检测等方面的优越性。
作者简介第2-4页
摘要第4-6页
ABSTRACT第6-8页
第一章 绪论第12-28页
    1.1 研究背景与意义第12-14页
    1.2 聚类方法概述第14-16页
    1.3 研究现状与关键问题第16-25页
        1.3.1 研究现状第16-20页
        1.3.2 典型子空间聚类算法与性能评价第20-25页
        1.3.3 聚类任务中关键问题分析第25页
    1.4 本文主要工作及内容安排第25-28页
        1.4.1 主要工作第25-26页
        1.4.2 内容安排第26-28页
第二章 基于熵加权混合模型的子空间聚类第28-40页
    2.1 算法思想第28页
    2.2 子空间聚类模型第28-30页
    2.3 熵加权子空间聚类算法第30-33页
        2.3.1 目标函数第30页
        2.3.2 参数估计第30-33页
        2.3.3 算法步骤第33页
    2.4 收敛性和复杂度分析第33-34页
    2.5 实验第34-39页
        2.5.1 高维仿真数据实验第34-37页
        2.5.2 真实数据实验第37-39页
    2.6 小结第39-40页
第三章 基于样本加权的健壮子空间聚类第40-52页
    3.1 健壮子空间聚类算法第40-43页
        3.1.1 目标函数第40-41页
        3.1.2 参数估计第41-42页
        3.1.3 算法步骤第42-43页
    3.2 收敛性和复杂度分析第43页
    3.3 实验第43-51页
        3.3.1 二维仿真数据实验第44-48页
        3.3.2 高维仿真数据实验第48-51页
        3.3.3 Lymphoma数据实验第51页
    3.4 小结第51-52页
第四章 基于约束混合模型的局部特征选择聚类第52-64页
    4.1 无约束混合模型第52-55页
        4.1.1 EM参数估计第53-54页
        4.1.2 存在问题第54-55页
    4.2 有约束混合模型第55-57页
    4.3 收敛性和复杂度分析第57页
    4.4 实验第57-62页
        4.4.1 仿真数据实验第58-61页
        4.4.2 真实数据实验第61-62页
    4.5 小结第62-64页
第五章 基于均匀效应的健壮聚类初始化第64-74页
    5.1 均匀效应第64-65页
    5.2 健壮聚类初始化算法第65-68页
        5.2.1 算法思想第65-66页
        5.2.2 阈值估计第66页
        5.2.3 算法实现第66-68页
    5.3 实验第68-71页
        5.3.1 初始化结果第70-71页
        5.3.2 参数敏感性分析第71页
    5.4 小结第71-74页
第六章 基于自适应L_q范数的健壮聚类第74-84页
    6.1 基于自适应L_q范数的目标函数及其求解第74-77页
        6.1.1 目标函数第74页
        6.1.2 基于非线性变换的目标函数求解第74-75页
        6.1.3 参数q_k的自适应求解第75-77页
    6.2 基于健壮类簇中心的噪声点检测第77页
    6.3 实验评估第77-82页
        6.3.1 混合alpha稳定数据实验第77-80页
        6.3.2 R-数据和D-数据的噪声检测第80-82页
        6.3.3 真实数据集实验第82页
    6.4 讨论第82-83页
    6.5 小结第83-84页
第七章 总结与展望第84-86页
    7.1 总结第84-85页
    7.2 展望第85-86页
附录A第86-88页
附录B第88-90页
附录C第90-92页
致谢第92-94页
参考文献第94-104页
攻读博士学位期间的研究成果第104页
论文购买
论文编号ABS540297,这篇论文共104页
会员购买按0.30元/页下载,共需支付31.2
不是会员,注册会员
会员更优惠充值送钱
直接购买按0.5元/页下载,共需要支付52
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文

点击收藏 | 在线购卡 | 站内搜索 | 网站地图
版权所有 艾博士论文 Copyright(C) All Rights Reserved
版权申明:本文摘要目录由会员***投稿,艾博士论文编辑,如作者需要删除论文目录请通过QQ告知我们,承诺24小时内删除。
联系方式: QQ:277865656