节点文献
基于统计方法的中文姓名识别
Statistical Chinese Person Names Identification
【摘要】 本文介绍一个中文姓名的自动识别系统 ,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据 ,以提高系统识别性能。我们从 1 994年人民日报中随机抽取 1 0 0篇文章作为测试样本 ,实验结果表明 ,准确率和召回率可同时达到 90 %以上。
【Abstract】 This paper presents an automatic identifying system of Chinese names.The system makes use of a large amount of statistical data,which are extracted from real name library and real text corpus,to enhance its identifying performance.The testing sample,including 100 articles,are extracted from the People’s Daily 1994 News Corpus.The experiment shows that the recall and the precision can both reach above 90%.
【关键词】 自动分词;
未登录词;
中文姓名识别;
【Key words】 Automatic word segmentation Out of dictionary word Chinese person names identification;
【Key words】 Automatic word segmentation Out of dictionary word Chinese person names identification;
【基金】 上海市教委重点学科基金;国家自然科学基金;日本富士通公司资助
- 【文献出处】 中文信息学报 ,JOURNAL OF CHINESE INFORMATION PROCESSING , 编辑部邮箱 ,2000年03期
- 【分类号】TP391.2
- 【被引频次】137
- 【下载频次】497