基于密度峰值和维度概率模型的混合属性数据聚类研究

混合属性聚类论文 密度峰值聚类论文 聚类融合论文 维度概率模型论文
论文详情
随着大数据时代的到来,人工智能、机器学习和数据挖掘技术对现代社会的影响越来越深远。聚类分析作为人类认识世界的基本能力,受到了越来越多科研工作者的重视。由于混合属性数据的普遍存在和其统一距离度量的困难性,混合属性数据聚类的研究一直是聚类分析研究中的热点之一。本文对混合属性数据聚类中的相似性度量、聚簇信息表示、自适应聚类和基于密度峰值和维度概率模型的聚类新方法进行了深入研究分析,取得了如下研究成果:(1)针对聚簇信息的表示问题,创新性地提出了维度概率模型的概念。本文首先定义了面向数值属性数据的维度概率分布、维度概率摘要等相关概念和点簇相似度、簇簇相似度的计算方法,接着提出了基于该模型的DMPCAH层次聚类算法。最后通过实验对比分析发现,该算法比传统的K-Means算法和AGNES层次聚类算法在聚类精度上有了较大的提高,并可实现聚簇数目的自动确定和离群点的识别。在此研究基础上,本文进一步将维度概率模型扩展到混合属性数据的聚类分析中,定义了面向混合属性数据的维度概率模型的相关概念和相似度计算方法。基于此模型,结合最新的密度峰值聚类算法,提出了面向混合属性数据的DPKM和DPM聚类算法。实验分析表明,DPKM算法能够有效进行混合属性数据聚类,比传统的K-Prototypes算法聚类精度更高;DPM算法利用点簇相似性度量对DPC聚类的数据点进行重新分配,能够有效提高原DPC聚类算法的聚类效果。(2)针对混合属性数据统一相似性度量的问题,本文提出了一种统一距离度量方法(简称为UDM距离),并将其用于生成混合属性数据的距离矩阵;接着提出了一种用于混合属性数据聚类的DPC_M算法,通过实验分析表明,在UCI真实数据集中,DPC_M算法的聚类准确度比传统的K-Prototypes算法提高了 4%~13%。此外,本文还将此UDM距离度量方法与现有的Gower距离、K-Prototypes距离、OCIL改进距离、Goodall距离进行了比较研究,从实验结果来看,本文提出的UDM距离方法在所有实验数据集中表现最稳定,其时间复杂度也比较低,运行时间随着数据点数的增长率最慢。(3)针对混合属性数据集中统一相似性度量方法不够稳定,传统算法无法自动确定聚簇数目等问题,提出了一种基于密度峰值的混合属性数据自适应融合聚类框架和一种基于该框架的ACEDP算法。算法首先将数据集的数值属性子集采用可自动确定聚簇数目的聚类算法进行聚类,其结果映射为分类属性加入到分类属性数据子集中;然后采用基于熵权值改进的Goodall距离度量方法生成新分类属性数据集的距离矩阵,最后采用基于双拐点改进的可自动确定聚簇中心的密度峰值聚类算法进行自适应融合聚类。在真实数据集上的实验表明,该方法能够有效实现混合属性聚类,提高聚类精度并自动确定聚簇数目。
摘要第5-7页
ABSTRACT第7-8页
第1章 绪论第12-33页
    1.1 引言第12-13页
    1.2 聚类分析的本质第13-17页
        1.2.1 数据的结构和表示第13-14页
        1.2.2 数据属性的类型第14页
        1.2.3 聚类的数学表示第14-16页
        1.2.4 聚类分析的方法第16-17页
    1.3 聚类分析的关键问题第17-24页
        1.3.1 聚簇的表示第18页
        1.3.2 数据对象间的相似性度量第18-20页
        1.3.3 聚簇数目的确定第20-22页
        1.3.4 聚类分析的质量评价第22-24页
    1.4 混合属性数据聚类的研究现状第24-29页
        1.4.1 类型转换方法第25-26页
        1.4.2 聚类融合方法第26-27页
        1.4.3 基于原型的方法第27-28页
        1.4.4 层次聚类方法第28页
        1.4.5 密度聚类方法第28-29页
        1.4.6 其他方法第29页
    1.5 本文的主要工作和创新点第29-31页
    1.6 本文的组织结构第31-33页
第2章 基于密度峰值的混合属性数据聚类研究第33-45页
    2.1 密度峰值聚类算法第33-34页
    2.2 密度峰值聚类算法的研究进展第34-36页
    2.3 基于密度峰值的混合属性数据聚类算法(DPC_M)第36-40页
        2.3.1 混合属性统一距离度量方法第36-37页
        2.3.2 DPC_M算法第37-39页
        2.3.3 离散序列拐点的计算第39-40页
        2.3.4 算法复杂度分析第40页
    2.4 实验分析第40-43页
        2.4.1 实验数据集第40-41页
        2.4.2 算法有效性实验第41-43页
        2.4.3 参数p的影响分析实验第43页
    2.5 本章小结第43-45页
第3章 基于密度峰值的混合属性数据自适应融合聚类研究第45-57页
    3.1 相关工作第45-47页
    3.2 分段融合聚类框架第47-49页
        3.2.1 混合属性数据聚类的数学定义第47页
        3.2.2 混合属性数据的聚类融合框架第47-48页
        3.2.3 混合属性数据的分段聚类融合框架第48-49页
        3.2.4 聚类框架应用的关键问题第49页
    3.3 基于密度峰值的分段融合聚类算法第49-52页
        3.3.1 kMM算法第49-50页
        3.3.2 ACEDP算法第50-52页
    3.4 实验分析第52-56页
        3.4.1 数据集简介第53页
        3.4.2 kMM算法的可行性分析第53-54页
        3.4.3 ACEDP算法的可行性分析第54-55页
        3.4.4 ACEDP算法参数p的影响分析第55-56页
    3.5 本章小结第56-57页
第4章 混合属性数据的距离度量研究第57-73页
    4.1 混合属性数据的相似性度量方法第57-67页
        4.1.1 Gower距离第57-58页
        4.1.2 K-Prototypes距离第58-59页
        4.1.3 OCIL改进距离第59-60页
        4.1.4 Goodall距离第60-62页
        4.1.5 UDM等其他距离第62页
        4.1.6 距离计算示例第62-67页
    4.2 实验对比分析第67-72页
        4.2.1 聚类效果对比第67-69页
        4.2.2 运行时间对比第69-71页
        4.2.3 结果及讨论第71-72页
    4.3 本章小结第72-73页
第5章 维度概率模型及其层次聚类研究第73-86页
    5.1 维度概率摘要模型第73-76页
        5.1.1 维度距离第73-74页
        5.1.2 相关定义第74-76页
    5.2 基于维度概率摘要模型的层次聚类第76-81页
        5.2.1 聚类思路第76-77页
        5.2.2 算法流程第77-78页
        5.2.3 DPMC算法关键问题第78-80页
        5.2.4 DPMC的凝聚层次聚类第80-81页
    5.3 实验分析第81-84页
        5.3.1 有效性实验第81-82页
        5.3.2 自动确定簇数目实验第82-83页
        5.3.3 m值参数调节实验第83-84页
        5.3.4 算法效率分析第84页
    5.4 本章小结第84-86页
第6章 基于密度峰值和维度概率模型的混合属性数据聚类第86-97页
    6.1 相关定义第86-88页
    6.2 计算示例第88-89页
    6.3 DPKM/DPM聚类算法第89-91页
        6.3.1 聚类思路第89-90页
        6.3.2 算法流程第90-91页
        6.3.3 算法复杂度分析第91页
    6.4 实验分析第91-96页
        6.4.1 实验数据集第91-92页
        6.4.2 算法聚类效果比较实验第92-93页
        6.4.3 DPKM算法的收敛性及迭代效果实验研究第93-94页
        6.4.4 实验结果分析讨论第94-96页
    6.5 本章小结第96-97页
第7章 结论与展望第97-99页
    7.1 结论第97-98页
    7.2 展望第98-99页
参考文献第99-108页
致谢第108-109页
攻读学位期间参加的科研项目和成果第109页
论文购买
论文编号ABS4272865,这篇论文共109页
会员购买按0.30元/页下载,共需支付32.7
不是会员,注册会员
会员更优惠充值送钱
直接购买按0.5元/页下载,共需要支付54.5
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文

点击收藏 | 在线购卡 | 站内搜索 | 网站地图
版权所有 艾博士论文 Copyright(C) All Rights Reserved
版权申明:本文摘要目录由会员***投稿,艾博士论文编辑,如作者需要删除论文目录请通过QQ告知我们,承诺24小时内删除。
联系方式: QQ:277865656