节点文献

基于多特征的自适应新词识别

Adaptive Method for Chinese New Word Identification Based on Multi-features

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 罗智勇宋柔

【Author】 LUO Zhi-yong (1.College of Computer Seienee,Beijing University of Technology,Beijing 100022,China) LUO Zhi-yong SONG Rou (2.Center for Language Information Processing,Beijing Language and Culture University,Beijing 100083,(China))

【机构】 北京工业大学计算机学院北京语言大学语言信息处理研究所 北京100022 北京语言大学语言信息处理研究所北京100083

【摘要】 为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统辅助的边界确认信息等,并直接从被抽取文本中自动训练识別模型.同时,新词识别过程在字串PAT-Array数据结构上进行,可以抽取任意长度的新词语.实验结果表明,该方法新词发现速度快、节省存储空间.

【Abstract】 To improve the performance of new word identification in Chinese word segment,the authors pro- pose an adaptive method for Chinese new word identification based on multi-feature method for off line corpus processing,in which many features,including context-entropy,likelihood ratios,frequency ratio against background corpus and boundary-verification with basic segmentation are introduced to evaluate the candidate words.And all of the features are integrated into an adaptive SVM classifier.Candidate new words are extracted efficiently on PAT-Array with much less space overhead and arbitrary n-gram words can be identi- fied by the method.The results show that the method can run fast upon new word identification and save much memory.

【基金】 国家自然科学基金(60272055,60572159);国家“八六三”计划资助项目(2001AA114111);教育部科学技术研究重点项目(00128,107017).
  • 【文献出处】 北京工业大学学报 ,Journal of Beijing University of Technology , 编辑部邮箱 ,2007年07期
  • 【分类号】TP391.43
  • 【被引频次】45
  • 【下载频次】539
节点文献中: 

本文链接的文献网络图示:

本文的引文网络