图像和视频中场景文本检测方法研究

自然场景文本检测论文 多方向文本检测论文 文本跟踪论文
论文详情
计算机视觉是近年来非常热门的研究领域,其中图像语义分析更是重中之重。研究表明,在有文字的图像中,文字所包含的语义信息占整张图像的70%以上,因此对图像中的文本进行提取和识别是分析图像语义信息的重要组成部分。人们对于印刷文本的提取和识别(OCR)可以说已经研究得非常透彻,但是在自然场景中,文本通常不会以非常标准的形式(白底黑字、标准字体)出现,而是掺杂大量噪声或形变,这使得传统的OCR技术的文本提取和识别效果急剧下降。另一方面,随着近年来网络技术,特别是移动互联技术的发展,人们不再满足于对简单的印刷文本的提取和识别,而是将目光投向更为复杂的自然场景。就目前绝大多数图像文本识别方法而言,对图像中的文本进行检测和定位是必要的,在自然场景图像文本检测这个特定领域,人们提出了许多新奇的方法,但是到目前为止在自然场景多方向文本检测领域仍然存在不少问题,主要包括:第一,字符分割不准确。由于自然场景的复杂性,图像中的字符形态上可能多种多样,存在很多难以检出的字符或文本部件;第二,文本噪声难以滤除。在自然场景中,诸如“门窗”、“砖块”之类的“类文本”区域有很多,字符和文本判别器对于这些区域的辨识能力较弱。第三,文本方向难以确定;自然场景中的文本可能以任何方式排列,同时,中文、日文等字符可能有笔画分离的情况,这些都会对文本的方向检测带来难度。针对这些问题,本文从水平方向文本检测入手,面向多方向文本场景检测进行了一系列关键技术的创新研究。首先,在水平方向文本检测任务中,针对字符检测和文本判别等难点问题,本课题提出了基于多信息融合的字符提取和多分类器集成的文本判别的场景文本检测方法。其中,基于多信息融合的字符提取通过层次型聚类算法对提取的连通域特征进行聚类,然后利用聚类中连通域的整体特征将多个通道的连通域融合,最大限度地保留字符区域。在ICDAR数据集上的实验结果表明,经过融合的字符区域相比原始灰度通道字符级召回率从92%提高到98%。而多分类器集成的文本判别则通过融合多个侧重点不同的文本判别器达到以较高精度对文本候选判别,其中基于CNN滑动窗口的判别器对类文本区域的过滤作用明显。第二,面向多方向文本检测,针对字符聚合和多方向分析问题,提出了基于自适应聚类和多方向文本行构建的多方向场景文本检测方法。其中,提出了一个基于尺度学习框架的自适应聚类算法,并利用这个算法设计出了一个由粗到精的多方向文本行构建算法。将这个尺度学习的方法应用的单链接聚类以及文中提出的二分层次型聚类算法,都得到了较好的结果。在多方向文本行构建的过程中,提出通过依次使用形态特征聚类、方向聚类和截距聚类的方法,确定文本行的方向,该方法在ICDAR15、MSRA-TD500、USTB-SV1K等多个数据库评测,均达到了当时最高水平。在真实的自然场景中,除了上述技术难点以外,对于被遮挡的文本进行定位在单一图像的情况下是难以克服的问题。对于这个问题,本文将研究载体从静态的图像转向动态的视频,以期利用视频中目标的时空连续性尽可能地对这类文本的检出率,同时进一步提高对一般文本的检测效果。所以,本课题的第三项工作是基于视频时空连续性特性和文本二阶特征,提出了基于能量最小化优化算法的视频文本跟踪检测方法。通过加入互斥能量模型,利用目标与目标的相互关系提取文本的二阶特征,增强了模型对相似文本的判别能力,同时利用跟踪信息提高整体的文本检测效果。这个方法在多个公开数据集上验证,MOTA(Multiple Object Tracking Accuracy)值较其他跟踪方法有明显提高,说明该方法在防止目标编号跳变(对不同文本的辨识能力)方面有很好的效果。同时,相比于单纯的检测方法,结合本文跟踪技术的检测系统在不同场景下显示出更强的鲁棒性。
致谢第4-5页
摘要第5-7页
Abstract第7-8页
1 绪论第12-21页
    1.1 课题背景及意义第12-14页
    1.2 文本主要研究内容及贡献第14-21页
        1.2.1 自然场景图像水平文本检测方法第14-16页
        1.2.2 自然场景图像多方向文本检测方法第16-18页
        1.2.3 视频文本检测与跟踪方法第18-20页
        1.2.4 论文研究内容之间的联系第20-21页
2 文献综述第21-38页
    2.1 自然场景水平方向文本检测第24-28页
    2.2 多方向文本检测第28-31页
    2.3 深度学习与文本检测第31-34页
    2.4 视频图像的文本检测与跟踪第34-38页
3 基于多信息融合的水平场景文本检测第38-63页
    3.1 多信息融合的字符提取第39-46页
        3.1.1 基于MSERs的字符提取方法第43-45页
        3.1.2 AdaBoost字符分类器第45-46页
    3.2 多分类器集成的文本判别器第46-50页
        3.2.1 基于滑动窗口的文本判别器第47-48页
        3.2.2 基于贝叶斯准则的文本判别器第48-49页
        3.2.3 AdaBoost文本判别器第49页
        3.2.4 三个判别器的区别第49-50页
    3.3 自然场景水平方向文本检测器第50页
    3.4 实验验证第50-62页
        3.4.1 数据集介绍第51-55页
        3.4.2 评价标准第55页
        3.4.3 基于多信息融合的字符提取第55-57页
        3.4.4 多分类器融合的文本判别器评测第57-59页
        3.4.5 水平方向文本检测器评测第59-62页
    3.5 本章小结第62-63页
4 基于自适应聚类的多方向场景文本检测第63-80页
    4.1 概述第63-65页
    4.2 基于尺度学习框架的自适应聚类算法第65-68页
        4.2.1 尺度学习框架第66-68页
    4.3 由粗到精的文本行构建算法第68-72页
        4.3.1 形态特征聚类第68-69页
        4.3.2 方向聚类第69-71页
        4.3.3 截距聚类第71页
        4.3.4 二分层次型聚类第71-72页
    4.4 实验验证第72-79页
        4.4.1 数据集介绍及评价标准第72-73页
        4.4.2 MSRA-TD500数据集实验第73-75页
        4.4.3 USTB-SV1K数据集实验第75-77页
        4.4.4 水平方向文本检测数据库上的实验第77-79页
    4.5 本章小结第79-80页
5 基于能量最小化优化算法的视频文本跟踪第80-97页
    5.1 文本跟踪模型描述第80-83页
        5.1.1 文本检测能量模型第81页
        5.1.2 表观模型第81-82页
        5.1.3 互斥模型第82-83页
    5.2 模型求解第83-84页
    5.3 文本跟踪过程第84-85页
    5.4 实验验证第85-96页
        5.4.1 视频文本跟踪的评价标准第85-87页
        5.4.2 数据集介绍第87-89页
        5.4.3 ICDAR15-CH3-TASK1数据集实验结果第89-93页
        5.4.4 Minetto数据集实验结果第93-96页
    5.5 本章小结第96-97页
6 自然场景视频文本检测系统第97-100页
    6.1 系统实现第97-98页
    6.2 实验验证第98-99页
        6.2.1 与检测方法的对比第98-99页
        6.2.2 与其他跟踪检测算法的对比第99页
    6.3 本章小结第99-100页
7 结论第100-102页
参考文献第102-110页
作者简历及在学研究成果第110-113页
学位论文数据集第113页
论文购买
论文编号ABS4054268,这篇论文共113页
会员购买按0.30元/页下载,共需支付33.9
不是会员,注册会员
会员更优惠充值送钱
直接购买按0.5元/页下载,共需要支付56.5
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文

点击收藏 | 在线购卡 | 站内搜索 | 网站地图
版权所有 艾博士论文 Copyright(C) All Rights Reserved
版权申明:本文摘要目录由会员***投稿,艾博士论文编辑,如作者需要删除论文目录请通过QQ告知我们,承诺24小时内删除。
联系方式: QQ:277865656