场景理解是计算机视觉的一个重要研究问题,在机器人导航、自动驾驶、环境检测、基于内容的图像搜索等多个应用场景中,具有广泛的应用价值。在理论方面,场景理解研究如何让机器能够像人一样理解图像的语义信息,是早期视觉研究提出的几个重要任务之一,至今仍然没有得到较好的解决。场景理解包括场景标注、物体检测及识别、以及最终对于场景本身的语义理解等。场景理解的一个难点是如何获得图像对于平移、旋转、尺度变化具有一定不变性的语义特征。基于视觉认知机制提出的卷积神经网络能够在有监督模式下,基于大量样本学习到具有一定鲁棒性的特征,近年来在计算机视觉、语音识别等多个领域获得了突出效果。然而作为特征提取工具,卷积神经网络的模型选择往往花费大量时间。虽然卷积神经具备局部平移不变性,其对于尺度变化还不具备较好的鲁棒性,学习到的中高层特征也不能得到较好的语义解释。本文利用卷积神经网络作为特征提取工具,通过研究卷积神经网络具有多尺度信息的模型,初步解决场景理解中交通标志检测和场景标注任务。在具体任务中,本文对卷积神经网络的模型选择和参数选择进行了研究。实时的目标检测需要从图像中迅速获得包围框。而卷积神经网络对包围框位置和尺度准确性的要求比较高。在交通标志检测问题中,本文首先使用SVM将RGB图像转化为灰度图像,再使用固定卷积核的卷积神经网络获得多个尺度下的包围框,并使用多阶段的卷积神经网络对包围框进行识别。在德国交通标志检测数据集上,我们在指示类标志中获得了第二名,而在警告类标志中获得了第三名。在场景标注中,本文使用多尺度卷积神经网络对场景进行基于像素的标注。使用多尺度卷积神经网络充分利用了不同尺度下的语义信息。在卷积神经网络标注后,本文使用全连接条件随机场消除部分不准确的标注。我们在斯坦福背景数据集上获得了79%的平均像素准确率,处理速度为平均每张图片2秒的时间。