剪枝和网格采样相结合的非平衡数据集分类方法

非平衡数据集论文 剪枝论文 网格采样论文 自适应增强法论文 ROC曲线论文
论文详情
非平衡数据集分类问题是模式识别、机器学习和数据挖掘领域中的常见问题,也是热点问题,吸引着众多学者的眼球。非平衡数据集是指数据集类别之间存在倾斜,某一类别样本比其它类别样本要多。传统分类器为了追求高准确率,侧重于非平衡数据集中的多数类样本分类的准确性。而恰恰相反,非平衡数据集中的少数类样本往往是我们所要关心的,这时分类性能不仅要考虑分类精度高低,同时要考虑分类代价大小。传统分类器对这种非平衡数据的处理会更多关注多数类别的样本,导致大量重要的少数类别的样本错分且真实信息受损。因此,研究非平衡数据处理问题是非常重要。目前,国内外学者在非平衡数据集分类问题上的研究已取得一定的成就,主要表现在数据预处理和算法两大层面上,在算法层面上,主要是试图改进传统算法,提高在非平衡数据集上的分类性能。而在数据预处理层面上,学者们研究大体是对负类样本进行欠采样,去除噪声数据和远离分类面数据,对正类样本过采样,加入噪声数据以至于达到数据平衡,再采用已有分类器进行分类,试图提高准确率。然而,去除数据还是加入数据,不同学者处理的方法也是不同的。本文在前人研究基础上,进一步对处理非平衡数据集分类的采样方法进行研究,防止一般欠采样方法所带来的重要信息数据的丢失,结合园艺工人们培植盆景的技巧,提出一种新的欠采样方法——剪枝网格采样方法,通过剪枝技术将多数类样本分类,分成绝对安全数据、边缘数据和噪声数据三类,然后进行网格采样,再利用自适应增强法对采样后数据进行学习。以ROC曲线为评价标准,对人造数据和典型的UCI数据集分别进行验证,其AUC值要大于其他几类算法,说明该模型具有良好的性能。接着,又将该方法和Random-SMOTE方法结合,提出混合采样方法,利用ROC曲线评价标准,通过两组数据对模型进行性能测试,结果发现该模型性能也很优越。
摘要第3-4页
Abstract第4页
第一章 绪论第7-11页
    1.1 研究背景及意义第7-9页
    1.2 非平衡数据集分类方法的研究现状第9-10页
    1.3 本文的主要工作及结构安排第10-11页
第二章 基于采样技术的数据预处理方法第11-22页
    2.1 欠采样技术理论与方法第11-17页
    2.2 过采样技术理论与方法第17-21页
    2.3 本章小结第21-22页
第三章 增强分类器算法和K-近邻算法第22-28页
    3.1 模式分类的概念第22页
    3.2 合并分类器的增强法(BoosTING)理论第22-26页
    3.3 K-近邻算法第26-27页
    3.4 本章小结第27-28页
第四章 基于剪枝网格采样的非平衡数据集分类算法第28-40页
    4.1 剪枝技术第28-31页
    4.2 非平衡数据集的采样处理技术第31-38页
    4.3 基于采样技术的非平衡数据集的增强分类算法第38-39页
    4.4 本章小结第39-40页
第五章 算法性能分析第40-49页
    5.1 非平衡数据集分类器的性能评价标准第40-42页
    5.2 人工数据集上的实验第42-46页
    5.3 典型UCI数据集上的实验第46-49页
第六章 总结与展望第49-50页
    6.1 本文相关工作的总结第49页
    6.2 对未来的展望第49-50页
参考文献第50-54页
攻读硕士学位期间的主要工作第54-55页
致谢第55页
论文购买
论文编号ABS537700,这篇论文共55页
会员购买按0.30元/页下载,共需支付16.5
不是会员,注册会员
会员更优惠充值送钱
直接购买按0.5元/页下载,共需要支付27.5
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文

点击收藏 | 在线购卡 | 站内搜索 | 网站地图
版权所有 艾博士论文 Copyright(C) All Rights Reserved
版权申明:本文摘要目录由会员***投稿,艾博士论文编辑,如作者需要删除论文目录请通过QQ告知我们,承诺24小时内删除。
联系方式: QQ:277865656