密度峰值聚类(Density Peaks Clustering)是一种基于密度的聚类方法。密度峰值聚类算法有着易于实现、参数较少等诸多优点。鉴于其性能上的优势,目前已成为热门的研究领域。但是,密度峰值聚类算法是一类比较新的聚类方法,仍处于发展阶段,有很多问题需要进一步研究和改进。本文主要从提高聚类性能、增强鲁棒性和扩展性能方面,深入分析了密度峰值聚类算法的不足,并研究相应的解决办法。具体研究内容如下:1.对k近邻和主成分分析的密度峰值聚类进行研究。由于基于ε近邻的局部密度的鲁棒性不强,可能对密度峰值聚类算法的聚类性能和可用性产生一定影响。此外,基于ε近邻的方法更容易陷入维度灾难。将k近邻的思想引入进密度峰值聚类算法中,提出了基于k近邻密度峰值聚类(DPC-KNN)。其次,针对数据的冗余性问题,在DPC-KNN的基础上引入了主成分分析的预处理手段,进一步提出了DPC-KNN-PCA算法。2.对测地距离的密度峰值聚类进行研究。为了揭示数据中包含的流形结构,将用于流形学习的测地距离函数引入到距离的计算中。以短程线所构成的距离近似出数据间非线性距离。为了更好的对包含有多种流形结构的数据进行处理,将该种距离度量引入进密度峰值聚类算法中,提出了基于测地距离的密度峰值聚类算法。3.对基于局部密度敏感和密度自适应度量的密度峰值聚类进行研究。针对密度峰值聚类在处理可变密度数据时聚类表现不佳的情况,定义了一种基于密度敏感的局部密度方法。为了客观反映数据的复杂结构,定义了一种密度敏感的相似性度量方法,该度量能够降低高密度区域数据间的距离,变相地增加低密度区域数据点间的距离。在这两个概念的基础上,提出了基于局部密度敏感和密度自适应度量的密度峰值聚类。4.对针对混合型数据的密度峰值聚类进行研究。原始的密度峰值聚类算法仅能够处理数值型数值的数据。针对此点,设计了一种基于熵的可计算混合型数据的相似度度量方式。为进一步增加密度峰值聚类算法的可行性和聚类性能,采用模糊近邻的概念重新定义了局部密度。此外,设计了一种简单的自动选择中心点的策略。结合这三点,提出了一种针对混合型数据的密度峰值聚类算法,可有效的聚类数值型数据、类别型数据和混合型数据。