节点文献

中文文本中外国人名与中国人名同步识别方法

Foreign Person Names and Chinese Person Names Recognition in Chinese Texts

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 高红黄德根杨元生

【Author】 GAO Hong, HUANG De-gen, YANG Yuan-sheng (Department of Computer Science and Engineering, Dalian University of Technology, Dalian 116024, China)

【机构】 大连理工大学计算机科学与工程系大连理工大学计算机科学与工程系 辽宁大连116024辽宁大连116024

【摘要】 根据中国人名和外国人名的构成特点产生潜在中国人名和外国人名,然后把它们作为节点词加入到句子的分词有向图中,利用上下文信息对有向图的边赋值,使有向图最短路径对应句子正确切分.在确定句子正确切分时识别出句子中的外国人名和中国人名.该方法可以避免由分词结果造成的人名不能被召回的现象,提高了人名识别的召回率.通过对真实语料的测试,在封闭测试中该方法对中国人名和外国人名识别的综合指标F值为97.30%.

【Abstract】 Foreign person name (FP-name) and Chinese person name (CP-name) candidates are generated according to their inherent characteristics. Then add all candidates into the segmentation digraph of a sentence as vertices and assign a weight to each edge of the digraph with statistics derived from the training corpus. Thus the shortest path of the digraph is exactly the correct segmentation of the sentence. When select the correct segmentation of the sentence, FP-names and CP-names can be recognized. The proposed method can avoid person name errors brought up by segmentation. The experimental result shows the F value is 97.30% in close test.

【基金】 国家自然科学基金项目(60373095;60373096)资助;高等学校博士学科点专项基金项目(20030141006)资助
  • 【文献出处】 小型微型计算机系统 ,Journal of Chinese Computer Systems , 编辑部邮箱 ,2006年04期
  • 【分类号】TP391.1
  • 【被引频次】6
  • 【下载频次】291
节点文献中: 

本文链接的文献网络图示:

本文的引文网络