卷积神经网络(Convolutional Neural Network, CNN)在图像视频分析中比传统方法有更高的准确率和快速的处理速度,利用CNN进行视频特征生成是一个重要方向。隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型不仅在文本领域得到广泛应用,并且近来在图像处理领域也得到应用。本文结合LDA提出了视觉主题模型,定义视觉字和视觉主题,降低视频的维度。本文设计了基于卷积神经网络的LDA视频检索系统,并研究了系统实现过程中的视频特征生成、视频特征表示等方法,最后对系统进行了实现和性能比较。本文的主要工作和研究的重点内容如下:(1)视频具有数据量大的特点,需要进行大量预处理降低数据量。本文通过抽取视频关键帧,可以简化视频的内容。本文使用块划分方法选取出一帧中信息量大的目标对象块,进一步简化视频结构。(2)简化视频结构后,需要提取视频的底层特征。目前主流的视频底层特征如颜色直方图,没有形状、纹理等信息并且对颜色的改变比较敏感。局部特征可以采集目标对象信息,但直接计算视频间相似性比较耗时。本文采用卷积神经网络方法,对视频进行底层特征提取,保留更多的视觉信息,提高视频检索的性能。(3) CNN视频特征维度较高,直接用于检索计算量大,需要进行数据降维。词袋模型Bag of Words (BoW)可以将视频特征运用聚类算法映射到词语空间,获得视频的视觉词语表示。在此基础上本文利用LDA提出了狄利克雷视觉主题模型,可以将视觉词语映射到视觉主题空间,获得视频的主题概率分布,进一步简化视频表示。(4)本文设计和实现了基于卷积神经网络的LDA视频检索系统,并将所提出的方法与前沿BoW视频检索方法进行对比分析,根据实验结果分析证明本文方案具有可行性、通用性、高效性。