伴随着计算机技术的不断发展,信息资源的电子化成为至关重要的问题。数学公式是许多科技文献的重要组成部分,由于手工输入困难,自动输入技术的研究尤为重要。现有的OCR(Optical Character Recognition)技术虽然对中英文字符和数字等符号都能获得较好的识别效果,但是无法正确处理数学公式。其原因在于数学公式具有复杂的二维嵌套结构,并且公式符号含义具有多样性,这使得数学公式在识别和结构分析方面存在很多困难。因此,数学公式识别已经成为OCR领域的一个研究热点。
本课题研究的是印刷体文档中的数学公式识别问题。印刷体文档中数学公式识别系统主要包括三个组成部分:公式提取,公式识别和公式结构分析重构。由于字符识别技术相对成熟,本文的主要工作是数学公式的提取和公式的分析与重构。
本文对公式提取和公式的分析与重构做了较深入的研究,主要从以下的两个方面进行了改进。
首先在公式提取阶段结合数学公式自身的特征,提出了一种基于模糊C-均值算法的印刷体数学公式提取方法。模糊C-均值算法利用数学公式行与一般的文本文字行的行间距、宽高比、行密度的不同,将数学公式行提取出来。通...
【英文摘要】
With the development of computer technology, information source electrification is becoming a very important issue. Mathematical formula has played an important part in many Scientific and technical literatures. Owing to the difficulty of Manual input, the research of techniques of automatic input seems to be more important. The current OCR(Optical Character Recognition) technology doesn’t correctly deal with mathematical formulas though the result of recognition is satisfied with the Chinese ,Engli...