本论文研究的主要内容是视频中文字信息的检测、提取与识别技术,它是基于内容的视频理解和检索的重要组成部分。作为一个有着广泛应用背景的研究领域,视频文字的检测与提取(Text Detection and Extraction,简称TDE)吸引了大批研究学者的参与。本文在前人工作的基础上,通过对视频分段以及视频数据多级结构的分析,重点研究了非压缩域和压缩域视频中文字的检测与提取方法,设计并实现了一个完整的基于边缘检测—投影的视频TDE系统,并期望在此基础上增强对算法的理解以及对某些问题的求解作出改进。
视频数据包含丰富的语义内容,但同时具有复杂的时空维信息,本文首先对视频数据的分段及多级结构抽象作了分析,进而针对基于内容的视频检索中的若干关键技术(镜头变换检测、关键帧提取和场景分割)进行重点研究和分析。这部分内容是视频文字检测与提取(TDE)算法研究的基础。
在非压缩域视频中文字的检测与提取(TDE)方面,本文着重研究了文字事件检测、候选文字区域的检测与分割、非文字区域滤除、单字分割以及视频文字识别(Video OCR)等内容。针对每种方法,本文都给出了算法分...
【英文摘要】
The thesis is focused on the technique of text detection, extraction and recognition in the video, which is an important component of the content-based video understanding and retrieval system. As a widely used technology, text detection and extraction (TDE) in the video has been given attention by many experts. Based on the analysis of the state of arts and the structure and segmentation methods of video data in multilayer, TDE algorithms in uncompressed domain and compressed domain have been discussed in ...