节点文献

基于OCR与词形状编码的英文扫描文档检索

Scanned English Document Retrieval Based on OCR and Word Shape Coding

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 夏勇戴汝为肖柏华王春恒

【Author】 XIA Yong 1,2,DAI Ru-Wei 2,XIAO Bai-Hua 2,WANG Chun-Heng 2 1(School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001) 2(Key Laboratory of Complex System and Intelligence Science,Institute of Automation,Chinese Academy of Sciences,Beijing 100080)

【机构】 哈尔滨工业大学计算机科学与技术学院中国科学院自动化研究所复杂系统与智能科学重点实验室

【摘要】 分析当前常用的两类扫描文档检索方法:基于OCR和基于词形状编码的方法.提出基于识别信度将两种方法进行有机结合的思路.基于文档排字特性和笔画特征,还提出一种词形状编码方法,对字体有较强的容忍性.针对各种标引方法进行关键词检索对比实验,实验结果表明,本文方法性能较优越.

【Abstract】 Two commonly used methods for scanned document retrieval are analyzed,namely retrieval based on optical character recognition (OCR) and retrieval based on word shape coding.A new strategy of combining these two methods based on recognition confidence is given.Furthermore,a new way for word shape coding based on typographic feature and stroke is presented and it is tolerant to fonts.Experiments are conducted based on different word indexing and the results verify the validity of the proposed method.

【基金】 国家自然科学基金资助项目(No.60602031)
  • 【文献出处】 模式识别与人工智能 ,Pattern Recognition and Artificial Intelligence , 编辑部邮箱 ,2009年03期
  • 【分类号】TP391.41
  • 【被引频次】10
  • 【下载频次】352
节点文献中: 

本文链接的文献网络图示:

本文的引文网络