节点文献

统计与词典相结合的领域自适应中文分词

Combining Statistical Model and Dictionary for Domain Adaption of Chinese Word Segmentation

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 张梅山邓知龙车万翔刘挺

【Author】 Zhang Meishan,Deng Zhilong,Che Wanxiang,Liu Ting Center for Information Retrieval of Computer Science & Technology School,Harbin Institute of Technology,Harbin 150001

【机构】 哈尔滨工业大学信息检索研究中心

【摘要】 基于统计的中文分词方法往往不具有良好的领域自适应性。本文通过将外部词典信息融入统计分词模型(本文使用CRF统计模型)来实现领域自适应性。实验表明,这种方法具有良好的领域自适应性。当测试领域和训练领域相同时,分词的F-measure值提升了2%;当测试领域和训练领域不同时,分词的F-measure值提升了6%。最终优化后的分诃速度也得到了很大的改善。

【Abstract】 Generally,statistical methods for Chinese Word Segmentation don’t have good domation adaption.We propose an approach which can integrate extern dictionary information into statistical models to realize domain adaption for Chinese Word Segmentation.In the paper,we use the CRF statistical model.Experimental results show that our approach have good domain adaption.When domain of test corpus is identical to the training corpus,the F-measure value has an increase of 2%;when domain of test corpus is different with the training corpus,the F-measure value has an increase of 6%.The final speed of segmentation has also been improved greatly after optimized.

【关键词】 中文分词CRF领域自适应
【Key words】 Chinese word segmentationCRFdomain adaption
【基金】 国家自然科学基金(60803093;60975055);哈尔滨工业大学科研创新基金(HIT.NSRIF.2009069);中央高效基本科研业务费专项资金(HIT.KLOE2010064)的资助
  • 【会议录名称】 中国计算语言学研究前沿进展(2009-2011)
  • 【会议名称】第十一届全国计算语言学学术会议
  • 【会议时间】2011-08-20
  • 【会议地点】中国河南洛阳
  • 【分类号】TP391.1
  • 【主办单位】中国中文信息学会
节点文献中: 

本文链接的文献网络图示:

本文的引文网络