首页--工业技术--自动化技术、计算机技术--计算技术、计算机技术--计算机的应用--信息处理（信息加工）--模式识别与装置

图像和视频中场景文本检测方法研究

自然场景文本检测论文多方向文本检测论文文本跟踪论文

论文详情

计算机视觉是近年来非常热门的研究领域,其中图像语义分析更是重中之重。研究表明,在有文字的图像中,文字所包含的语义信息占整张图像的70%以上,因此对图像中的文本进行提取和识别是分析图像语义信息的重要组成部分。人们对于印刷文本的提取和识别(OCR)可以说已经研究得非常透彻,但是在自然场景中,文本通常不会以非常标准的形式(白底黑字、标准字体)出现,而是掺杂大量噪声或形变,这使得传统的OCR技术的文本提取和识别效果急剧下降。另一方面,随着近年来网络技术,特别是移动互联技术的发展,人们不再满足于对简单的印刷文本的提取和识别,而是将目光投向更为复杂的自然场景。就目前绝大多数图像文本识别方法而言,对图像中的文本进行检测和定位是必要的,在自然场景图像文本检测这个特定领域,人们提出了许多新奇的方法,但是到目前为止在自然场景多方向文本检测领域仍然存在不少问题,主要包括:第一,字符分割不准确。由于自然场景的复杂性,图像中的字符形态上可能多种多样,存在很多难以检出的字符或文本部件;第二,文本噪声难以滤除。在自然场景中,诸如“门窗”、“砖块”之类的“类文本”区域有很多,字符和文本判别器对于这些区域的辨识能力较弱。第三,文本方向难以确定;自然场景中的文本可能以任何方式排列,同时,中文、日文等字符可能有笔画分离的情况,这些都会对文本的方向检测带来难度。针对这些问题,本文从水平方向文本检测入手,面向多方向文本场景检测进行了一系列关键技术的创新研究。首先,在水平方向文本检测任务中,针对字符检测和文本判别等难点问题,本课题提出了基于多信息融合的字符提取和多分类器集成的文本判别的场景文本检测方法。其中,基于多信息融合的字符提取通过层次型聚类算法对提取的连通域特征进行聚类,然后利用聚类中连通域的整体特征将多个通道的连通域融合,最大限度地保留字符区域。在ICDAR数据集上的实验结果表明,经过融合的字符区域相比原始灰度通道字符级召回率从92%提高到98%。而多分类器集成的文本判别则通过融合多个侧重点不同的文本判别器达到以较高精度对文本候选判别,其中基于CNN滑动窗口的判别器对类文本区域的过滤作用明显。第二,面向多方向文本检测,针对字符聚合和多方向分析问题,提出了基于自适应聚类和多方向文本行构建的多方向场景文本检测方法。其中,提出了一个基于尺度学习框架的自适应聚类算法,并利用这个算法设计出了一个由粗到精的多方向文本行构建算法。将这个尺度学习的方法应用的单链接聚类以及文中提出的二分层次型聚类算法,都得到了较好的结果。在多方向文本行构建的过程中,提出通过依次使用形态特征聚类、方向聚类和截距聚类的方法,确定文本行的方向,该方法在ICDAR15、MSRA-TD500、USTB-SV1K等多个数据库评测,均达到了当时最高水平。在真实的自然场景中,除了上述技术难点以外,对于被遮挡的文本进行定位在单一图像的情况下是难以克服的问题。对于这个问题,本文将研究载体从静态的图像转向动态的视频,以期利用视频中目标的时空连续性尽可能地对这类文本的检出率,同时进一步提高对一般文本的检测效果。所以,本课题的第三项工作是基于视频时空连续性特性和文本二阶特征,提出了基于能量最小化优化算法的视频文本跟踪检测方法。通过加入互斥能量模型,利用目标与目标的相互关系提取文本的二阶特征,增强了模型对相似文本的判别能力,同时利用跟踪信息提高整体的文本检测效果。这个方法在多个公开数据集上验证,MOTA(Multiple Object Tracking Accuracy)值较其他跟踪方法有明显提高,说明该方法在防止目标编号跳变(对不同文本的辨识能力)方面有很好的效果。同时,相比于单纯的检测方法,结合本文跟踪技术的检测系统在不同场景下显示出更强的鲁棒性。

致谢	第4-5页
摘要	第5-7页
Abstract	第7-8页
1 绪论	第12-21页
1.1 课题背景及意义	第12-14页
1.2 文本主要研究内容及贡献	第14-21页
1.2.1 自然场景图像水平文本检测方法	第14-16页
1.2.2 自然场景图像多方向文本检测方法	第16-18页
1.2.3 视频文本检测与跟踪方法	第18-20页
1.2.4 论文研究内容之间的联系	第20-21页
2 文献综述	第21-38页
2.1 自然场景水平方向文本检测	第24-28页
2.2 多方向文本检测	第28-31页
2.3 深度学习与文本检测	第31-34页
2.4 视频图像的文本检测与跟踪	第34-38页
3 基于多信息融合的水平场景文本检测	第38-63页
3.1 多信息融合的字符提取	第39-46页
3.1.1 基于MSERs的字符提取方法	第43-45页
3.1.2 AdaBoost字符分类器	第45-46页
3.2 多分类器集成的文本判别器	第46-50页
3.2.1 基于滑动窗口的文本判别器	第47-48页
3.2.2 基于贝叶斯准则的文本判别器	第48-49页
3.2.3 AdaBoost文本判别器	第49页
3.2.4 三个判别器的区别	第49-50页
3.3 自然场景水平方向文本检测器	第50页
3.4 实验验证	第50-62页
3.4.1 数据集介绍	第51-55页
3.4.2 评价标准	第55页
3.4.3 基于多信息融合的字符提取	第55-57页
3.4.4 多分类器融合的文本判别器评测	第57-59页
3.4.5 水平方向文本检测器评测	第59-62页
3.5 本章小结	第62-63页
4 基于自适应聚类的多方向场景文本检测	第63-80页
4.1 概述	第63-65页
4.2 基于尺度学习框架的自适应聚类算法	第65-68页
4.2.1 尺度学习框架	第66-68页
4.3 由粗到精的文本行构建算法	第68-72页
4.3.1 形态特征聚类	第68-69页
4.3.2 方向聚类	第69-71页
4.3.3 截距聚类	第71页
4.3.4 二分层次型聚类	第71-72页
4.4 实验验证	第72-79页
4.4.1 数据集介绍及评价标准	第72-73页
4.4.2 MSRA-TD500数据集实验	第73-75页
4.4.3 USTB-SV1K数据集实验	第75-77页
4.4.4 水平方向文本检测数据库上的实验	第77-79页
4.5 本章小结	第79-80页
5 基于能量最小化优化算法的视频文本跟踪	第80-97页
5.1 文本跟踪模型描述	第80-83页
5.1.1 文本检测能量模型	第81页
5.1.2 表观模型	第81-82页
5.1.3 互斥模型	第82-83页
5.2 模型求解	第83-84页
5.3 文本跟踪过程	第84-85页
5.4 实验验证	第85-96页
5.4.1 视频文本跟踪的评价标准	第85-87页
5.4.2 数据集介绍	第87-89页
5.4.3 ICDAR15-CH3-TASK1数据集实验结果	第89-93页
5.4.4 Minetto数据集实验结果	第93-96页
5.5 本章小结	第96-97页
6 自然场景视频文本检测系统	第97-100页
6.1 系统实现	第97-98页
6.2 实验验证	第98-99页
6.2.1 与检测方法的对比	第98-99页
6.2.2 与其他跟踪检测算法的对比	第99页
6.3 本章小结	第99-100页
7 结论	第100-102页
参考文献	第102-110页
作者简历及在学研究成果	第110-113页
学位论文数据集	第113页

论文购买

论文编号ABS4054268，这篇论文共113页

会员购买按0.30元/页下载，共需支付33.9。

会员购买

不是会员，注册会员！
会员更优惠充值送钱！

直接购买按0.5元/页下载，共需要支付56.5。

直接购买

只需这篇论文，无需注册！
直接网上支付，方便快捷！