垃圾图像特征提取与选择研究

垃圾信息过滤论文 垃圾图像识别论文 特征提取论文 特征选择论文
论文详情
垃圾图像识别是当前互联网络垃圾信息过滤研究领域的热点之一,目标是解决传统的垃圾信息过滤方法在过滤垃圾图像信息时,性能急剧下降甚至失效的问题。解决垃圾图像识别问题的关键是特征建模时采用的特征提取和特征选择方法。鉴于电子邮件是目前传播垃圾图像信息最主要的途径之一,本论文以电子邮件所含垃圾图像为研究对象,针对抗干扰的图像区域和图像边缘特征提取方法、基于信息度量准则的有监督特征选择方法、应对标注瓶颈问题的半监督特征选择方法进行了研究。本文主要的创新性成果包括以下四个方面:1.提出一种抗干扰的文本区域自动提取方法,削弱了现有相关方法对图像质量有较高要求的限制。该方法设计的八邻域细小区域去除算法和候选文本区域筛选机制,能有效降低复杂背景和不规整的图像文字对文本区域分割形成的干扰。在此基础上,该方法设计了一种基于霍夫变换求标记区域最小外接矩形的算法,克服了现有相关方法不能有效提取倾斜文本区域的不足。实验结果显示该方法能有效提高文本区域的提取精确度,从而获得更有效的文本区域特征。2.提出一种邮件图像边缘特征提取方法。该方法引入高阶局部自相关(Higher-order Local AutoCorrelation, HLAC)函数提取邮件图像的边缘特征,据此得到的HLAC特征能反映图像内容固有的边缘相关性,具有对位移和尺度变化不敏感的优点,表现出较强的抗干扰能力,克服了现有相关算法对图像边缘分布或者图像中的文字数量存在限制条件的不足。真实数据集上的实验结果证实HLAC特征是一种有效的判别特征。3.提出一种基于信息度量准则的特征选择算法。针对现有相关算法脱离分类环境评估冗余特征的问题,该算法提出分类冗余特征的定义,并设计了一个分类信息增益度量化指标,在评估候选特征之前删除分类冗余特征,降低对评估特征的干扰。针对大多数信息度量准则不能正确处理特征协作关系的问题,该算法运用条件互信息,设计了一个信息度量准则对特征进行评估。实验结果表明该算法能够有效降低特征空间的复杂度,提高分类模型的性能。4.提出一种基于图的半监督特征选择算法。该算法以聚类假设为理论基础,对基于谱图理论的无监督特征选择算法Laplacian Score进行扩展,通过构建样本数据的类内相似度和类间离散度矩阵,考察特征保持全局结构和局部结构的能力,并且利用分类信息增益度指标去除冗余特征,弥补了现有相关算法不能处理冗余特征的不足。实验结果显示该算法在样本标注程度很低的数据集上能有效去除冗余特征,选出预测力强的特征子集。上述研究成果为实现垃圾图像的自动判别,从而解决垃圾图像信息的过滤问题提供了新的研究思路和有希望的解决方案。
摘要第5-7页
ABSTRACT第7-8页
第一章 绪论第15-29页
    1.1 研究背景与意义第15-16页
    1.2 国内外研究现状第16-24页
        1.2.1 垃圾图像识别方法概述第16-18页
        1.2.2 基于图像内容的识别方法第18-24页
    1.3 论文主要工作及创新点第24-27页
        1.3.1 论文主要工作第24-26页
        1.3.2 论文主要创新点第26-27页
    1.4 论文章节安排第27-29页
第二章 相关研究基础第29-43页
    2.1 垃圾图像识别模型第29-33页
        2.1.1 垃圾图像的定义第29-31页
        2.1.2 垃圾图像识别过程第31-32页
        2.1.3 分类学习算法第32-33页
    2.2 特征提取第33-36页
        2.2.1 基于颜色的特征提取第33-34页
        2.2.2 基于文本区域的特征提取第34-35页
        2.2.3 基于边缘的特征提取第35-36页
    2.3 特征选择第36-42页
        2.3.1 相关特征与冗余特征第36页
        2.3.2 特征选择类型第36-37页
        2.3.3 基于信息度量的特征选择第37-40页
        2.3.4 半监督特征选择第40-42页
    2.4 本章小结第42-43页
第三章 图像的形状特征提取方法第43-60页
    3.1 引言第43-44页
    3.2 抗干扰的文本区域自动提取第44-52页
        3.2.1 彩色边缘检测与二值化第45-46页
        3.2.2 八邻域细小区域去除算法第46-47页
        3.2.3 最小外接矩形提取方法第47-49页
        3.2.4 文本区域筛选第49-50页
        3.2.5 实验及分析第50-52页
    3.3 基于HLAC 函数的边缘特征提取第52-59页
        3.3.1 HLAC 函数第52-53页
        3.3.2 HLAC 特征提取方法第53-54页
        3.3.3 基于HLAC特征的SVM分类器第54-55页
        3.3.4 实验及分析第55-59页
    3.4 本章小结第59-60页
第四章 基于条件互信息的特征选择方法第60-81页
    4.1 引言第60-61页
    4.2 特征交互第61-63页
        4.2.1 特征交互的信息度量第61-62页
        4.2.2 特征交互类型第62-63页
    4.3 分类冗余特征第63-65页
    4.4 基于条件互信息的特征选择算法CMIFS第65-70页
        4.4.1 信息度量准则第65-68页
        4.4.2 CMIFS算法描述第68-69页
        4.4.3 时间复杂度分析第69-70页
    4.5 实验及分析第70-80页
        4.5.1 实验一:标准数据集实验第70-77页
        4.5.2 实验二:邮件图像数据集实验第77-80页
    4.6 本章小结第80-81页
第五章 基于图的半监督特征选择方法第81-99页
    5.1 引言第81-82页
    5.2 半监督LAPLACIAN分值函数第82-87页
        5.2.1 图的Laplacian第82-83页
        5.2.2 半监督的s-Laplacian分值函数第83-86页
        5.2.3 构建邻接矩阵第86-87页
    5.3 半监督特征选择算法GSFS第87-89页
        5.3.1 冗余特征去除第87页
        5.3.2 GSFS算法第87-89页
    5.4 实验及分析第89-98页
        5.4.1 实验一:标准数据集实验第89-94页
        5.4.2 实验二:邮件图像数据集实验第94-98页
    5.5 本章小结第98-99页
第六章 垃圾图像识别方法在邮件过滤系统中的应用第99-109页
    6.1 垃圾邮件防火墙AONE整体设计第99-101页
        6.1.1 系统部署第99-100页
        6.1.2 系统组成第100-101页
    6.2 图像分类子系统第101-105页
        6.2.1 子系统结构第101-102页
        6.2.2 模型学习第102-104页
        6.2.3 模型预测第104-105页
    6.3 系统测试及分析第105-108页
        6.3.1 测试数据集第105页
        6.3.2 系统设置第105-106页
        6.3.3 测试结果第106-108页
    6.4 本章小结第108-109页
第七章 结束语第109-111页
致谢第111-112页
参考文献第112-122页
攻博期间取得的研究成果第122-126页
论文购买
论文编号ABS537925,这篇论文共126页
会员购买按0.30元/页下载,共需支付37.8
不是会员,注册会员
会员更优惠充值送钱
直接购买按0.5元/页下载,共需要支付63
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文

点击收藏 | 在线购卡 | 站内搜索 | 网站地图
版权所有 艾博士论文 Copyright(C) All Rights Reserved
版权申明:本文摘要目录由会员***投稿,艾博士论文编辑,如作者需要删除论文目录请通过QQ告知我们,承诺24小时内删除。
联系方式: QQ:277865656