基于核的降维和分类方法及其应用研究
线性判别分析论文 光束角论文 模糊技术论文 核密度估计论文 熵理论论文 隐私保护论文
论文详情
特征降维和模式分类是模式识别研究的重要内容。目前,特征降维和模式分类方法受到广大学者的关注。特别是近年来核方法的快速发展,使传统方法的适用范围进一步扩大并形成了众多研究成果,广泛应用于数据挖掘、图像处理、语音识别、指纹识别、医疗诊断等领域。尽管如此,但上述方法在一定程度上仍面临鲁棒性不高、泛化能力不强等问题。针对上述问题,本课题进行了相关研究,具体研究内容如下:1、针对线性判别分析算法面临的秩限制和小样本问题,提出几种改进算法:基于多阶矩阵组合的线性判别分析算法MLDA引入多阶矩阵组合的概念,重新定义了传统LDA中的类内离散度矩阵,使传统Fisher准则具有更好的健壮性和适应性;标量化的线性判别分析算法SLDA将类内离散度矩阵和类间离散度矩阵进行标量化处理,通过求解样本各维的权值达到特征降维的目的;基于矩阵指数的线性判别分析算法MELDA在矩阵指数的基础上,重新定义了类内离散度矩阵和类间离散度矩阵,可有效地同时提取类内离散度矩阵零空间和非零空间中的信息。此外,还从理论上对《核选择和非线性特征提取的双线性分析》一文提出的FKA算法的迭代收敛性进行了分析和探讨,并运用Radermacher复杂性分析法进行了证明。2、当前主流特征提取方法大致有两种研究思路:(1)从高维数据的几何性质出发,根据某种寻优准则得到基于原始空间特征的一组特征数更少的新特征;(2)从降维误差角度出发,保证降维前后数据所呈现的某种偏差达到最小。本课题试图从降维过程中数据分布特征的变化入手,基于广泛使用的Parzen窗核密度估计方法,来审视和揭示Parzen窗估计与典型特征提取方法LPP、LDA和PCA之间的关系,从而说明这些特征提取方法可统一在Parzen窗框架下进行研究,为特征提取方法的研究提供了一个新的视角。3、基于边界的分类方法中,超平面、超(椭)球等几何形状运用较为广泛。空间几何另一重要组成部分——点能否作为分类依据值得研究。受空间几何知识和光学领域光束角启发,提出基于光束角思想的最大间隔学习机BAMLM。从光学角度BAMLM可理解为在样本空间中寻找一个“光源”分别照射两类样本,根据照射区域的不同对样本进行分类;从空间几何角度BAMLM可理解为在样本空间内寻找一个分类点,通过计算样本与分类点间的夹角来判断样本类属。分析表明BAMLM的核化形式等价于核化CCMEB,通过引入核心向量机将BAMLM扩展为BACVM,有效地解决了大规模样本的分类问题。然而当训练样本中含有噪声点和孤立点时,上述方法的分类性能受到很大影响。鉴于此,提出基于空间点的最大间隔模糊分类器MFC。该方法引入模糊技术保证MFC分类时对样本区别对待,减小或消除奇异点的影响,有效提高了分类效率。4、针对核SVM存在的信息泄露问题和大规模数据分类问题,提出面向大规模数据的隐私保护学习机PPLM和基于分类超平面的非线性集成学习机NALM。PPLM首先通过核心向量机对大规模样本进行采样,然后在核心集上选取两个样本点并将两点连线的法平面作为最优分类面。该方法有效解决大规模数据分类问题,并保证分类过程隐私安全。NALM首先将数据集分成若干数据子集,然后分别在各数据子集上运行分类超平面SH,最后将各子集上的分类结果进行集成得到最终的分类结果。该方法不仅继承了SH的优点,而且还将SH的适用范围从小规模数据扩展到中大规模数据,从线性空间推广到Hilbert核空间。5、以SVM及其变种为代表的大间隔分类方法在实际应用中取得了较好的效果,但该方法易受到输入数据仿射或伸缩等变换的干扰,其原因在于这些方法只考虑数据类间的绝对间隔而忽视了类内数据的分布性状。针对大间隔分类方法的不足,提出基于核密度估计与熵理论的最大间隔学习机MEKLM。该方法用核密度估计表征样本的分布特征,用熵表征分类的不确定性。MEKLM可以真实反映类间数据的边界信息和类内数据的分布特征,同时解决二分类问题和单类问题,且分类性能优良。
摘要 | 第3-5页 |
Abstract | 第5-6页 |
第一章 绪论 | 第11-17页 |
1.1 课题研究背景 | 第11-14页 |
1.1.1 特征降维方法 | 第11-12页 |
1.1.2 模式分类方法 | 第12-13页 |
1.1.3 核 | 第13-14页 |
1.2 特征降维和模式分类面临的几个挑战 | 第14-15页 |
1.3 课题主要内容、特色和创新 | 第15-17页 |
第二章 基于线性判别分析算法的特征降维方法研究 | 第17-45页 |
2.1 引言 | 第17页 |
2.2 线性判别分析算法及其面临的两大问题 | 第17-18页 |
2.2.1 线性判别分析算法 | 第17-18页 |
2.2.2 秩限制问题 | 第18页 |
2.2.3 小样本问题 | 第18页 |
2.3 基于多阶矩阵组合的线性判别分析算法 MLDA | 第18-24页 |
2.3.1 算法描述 | 第18-19页 |
2.3.2 实验结果及分析 | 第19-24页 |
2.4 标量化的线性判别分析算法 SLDA | 第24-31页 |
2.4.1 提出 SLDA 的意义 | 第24-25页 |
2.4.2 算法描述 | 第25-26页 |
2.4.3 实验结果及分析 | 第26-31页 |
2.5 基于矩阵指数的线性判别分析算法 MELDA | 第31-36页 |
2.5.1 算法描述 | 第31-32页 |
2.5.2 实验结果及分析 | 第32-36页 |
2.6 FKA 算法迭代收敛性分析 | 第36-42页 |
2.6.1 引言 | 第36页 |
2.6.2 FKC 准则及迭代分析算法 FKA | 第36-38页 |
2.6.3 FKA 算法迭代收敛性分析 | 第38-42页 |
2.6.4 推广性结论 | 第42页 |
2.7 结语 | 第42-45页 |
第三章 特征提取新视角:基于 Parzen 窗估计的方法 | 第45-61页 |
3.1 引言 | 第45页 |
3.2 Parzen 窗 | 第45-46页 |
3.3 Parzen 窗与 LPP | 第46-49页 |
3.3.1 LPP | 第46-47页 |
3.3.2 Parzen 窗与 LPP 的关系 | 第47-49页 |
3.4 Parzen 窗与 LDA 和 PCA | 第49-54页 |
3.4.1 LDA | 第49-51页 |
3.4.2 Parzen 窗与 LDA 的关系 | 第51-52页 |
3.4.3 PCA | 第52-54页 |
3.4.4 Parzen 窗与 PCA 的关系 | 第54页 |
3.5 实验分析 | 第54-60页 |
3.5.1 人工数据集 | 第55-56页 |
3.5.2 人脸数据集 | 第56-60页 |
3.6 推广性结论 | 第60页 |
3.7 结语 | 第60-61页 |
第四章 基于光束角思想的最大间隔学习机 | 第61-77页 |
4.1 引言 | 第61页 |
4.2 背景知识 | 第61-63页 |
4.2.1 光束角 | 第61-62页 |
4.2.2 相关算法 | 第62-63页 |
4.3 基于光束角思想的最大间隔学习机 | 第63-66页 |
4.3.1 BAMLM 与光束角的关系 | 第63-64页 |
4.3.2 线性形式 | 第64-65页 |
4.3.3 对偶形式 | 第65页 |
4.3.4 核化形式 | 第65页 |
4.3.5 间隔ρ的求解 | 第65-66页 |
4.3.6 决策函数 | 第66页 |
4.4 CCMEB 及 BACVM | 第66-67页 |
4.4.1 CCMEB | 第66-67页 |
4.4.2 BAMLM 与 CCMEB 关系 | 第67页 |
4.4.3 BACVM | 第67页 |
4.5 实验分析 | 第67-75页 |
4.5.1 实验参数分析 | 第68-69页 |
4.5.2 中小规模数据集 | 第69-73页 |
4.5.3 中大规模数据集 | 第73-75页 |
4.6 结语 | 第75-77页 |
第五章 基于空间点的最大间隔模糊分类器 | 第77-87页 |
5.1 引言 | 第77页 |
5.2 模糊理论 | 第77-78页 |
5.2.1 基于距离的隶属度函数 | 第77页 |
5.2.2 基于紧密度的隶属度函数 | 第77-78页 |
5.3 最大间隔模糊分类器 MFC | 第78-80页 |
5.3.1 概述 | 第78页 |
5.3.2 原始优化问题 | 第78-79页 |
5.3.3 对偶问题 | 第79页 |
5.3.4 核化问题 | 第79-80页 |
5.3.5 类间夹角间隔ρ的求解 | 第80页 |
5.3.6 决策函数 | 第80页 |
5.4 理论分析 | 第80-81页 |
5.4.1 可调参数 性质 | 第80-81页 |
5.4.2 单类问题 | 第81页 |
5.5 实验分析 | 第81-85页 |
5.5.1 实验参数设置 | 第81-82页 |
5.5.2 二类模式分类 | 第82-83页 |
5.5.3 单类模式分类 | 第83-84页 |
5.5.4 抗噪性实验 | 第84-85页 |
5.6 结语 | 第85-87页 |
第六章 基于分类超平面的大规模数据学习机 | 第87-101页 |
6.1 引言 | 第87-88页 |
6.2 面向大规模数据的隐私保护学习机 | 第88-95页 |
6.2.1 支持向量机及隐私泄露问题 | 第88-89页 |
6.2.2 PPLM | 第89-91页 |
6.2.3 实验分析 | 第91-95页 |
6.3 基于分类超平面的非线性集成学习机 | 第95-99页 |
6.3.1 算法描述 | 第95-96页 |
6.3.2 数据集划分方法 | 第96页 |
6.3.3 非线性集成方法 | 第96页 |
6.3.4 实验分析 | 第96-99页 |
6.4 结语 | 第99-101页 |
第七章 基于核密度估计与熵理论的最大间隔学习机 | 第101-111页 |
7.1 引言 | 第101页 |
7.2 核密度估计和熵理论 | 第101-102页 |
7.2.1 核密度估计 | 第101-102页 |
7.2.2 熵理论 | 第102页 |
7.3 基于核密度估计与熵理论的最大间隔学习机 | 第102-104页 |
7.3.1 分类目标函数 | 第102-103页 |
7.3.2 决策函数 | 第103-104页 |
7.4 理论分析 | 第104-105页 |
7.4.1 先验系数λ的性质 | 第104-105页 |
7.4.2 单类问题 | 第105页 |
7.5 实验分析 | 第105-108页 |
7.5.1 实验参数的设置 | 第105-106页 |
7.5.2 人工数据集 | 第106-107页 |
7.5.3 UCI 数据集 | 第107-108页 |
7.6 结语 | 第108-111页 |
第八章 总结与展望 | 第111-113页 |
8.1 本课题的主要贡献 | 第111-112页 |
8.2 工作展望 | 第112-113页 |
致谢 | 第113-115页 |
参考文献 | 第115-123页 |
附录 | 第123页 |
附录 1:作者在攻读博士学位期间发表的论文列表 | 第123页 |
附录 2:攻读博士学位期间参与的科研项目列表 | 第123页 |
论文购买
论文编号
ABS2384496,这篇论文共123页
会员购买按0.30元/页下载,共需支付
36.9。
不是会员,
注册会员!
会员更优惠
充值送钱!
直接购买按0.5元/页下载,共需要支付
61.5。
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文