随着信息时代的爆发,越来越多的图像视频数据以各式各样的途径传播。与之伴随的新挑战是如何快速有效的从这些海量数据中获取有用信息。自然场景图像中的文字作为一种极其重要的信息来源,可以被用来辅助于多种实际应用包括图像检索、人机交互和驾驶导航系统等等,因此关于自然场景文本自动阅读相关技术(主要包含文字检测和文字识别)的研究一直是计算机领域备受关注的话题。然而,大规模的图像视频数据中只有极少部分的图片包含文字,因此关于文本与非文本图片分类算法的研究具备较高的现实意义和使用价值。本论文的主要研究内容如下:首先,为了解决自然场景文本与非文本分类算法缺乏公开的评测数据集问题,我们从网络上收集了一个大规模数据集并采纳了相应的衡量指标。数据集主要由自然场景图片,和极少量的数字合成图片和文档图片组成,图片中的文字在布局、字体、颜色和语种上丰富多样。该数据集可以作为参考数据集,用来衡量不同自然场景文本与非文本图片判别算法的性能。接着,从图像特征编码角度出发,论文提出了一个基于深度学习特征编码的自然场景文本与非文本图片分类算法(简称CNN Coding),有效的结合了最大值稳定区域、卷积神经网络和词袋模型三种成熟技术的优势。算法在自己创建的数据集上的评测性能比几种典型图像分类算法优越。和几种典型的图像分类算法比较分析,也有助于我们进一步探讨该问题的难点和本质需求。考虑算法的易用性、灵活性以及速度需求,论文也提出了一个基于多尺度空间划分文本与非文本图片判别的卷积神经网络(简称MSP-Net)。网络借助于多尺度空间划分操作,将图像级别的分类问题转变为图像块级别的分类问题。只要有一个以上的图像块被识别为文本块,整张图片就此被视作为文本图片。网络仅需要单次的前向传播,就可以把所有的图像块关于文本与非文本的判别结果输出。该网络模型在多个数据集上评测的性能和速度都远远超过其他的方法,包括LLC Coding方法,具有较强的通用性。论文解决了自然场景文本与非文本分类算法的几个关键性问题,如数据集和衡量指标等问题。通过分析问题难点和需求之后,提出的两种有效解决自然场景文本与非文本图片分类算法,能够成为海量图像视频数据中挖掘文本信息的有效工具。