节点文献

基于词激活力的自动词发现

Word Activation Force Based Automatic Word Detection

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 张永田徐蔚然汪浩

【Author】 ZHANG Yong-tian,XU Wei-ran,WANG Hao (PRIS Lab,Beijing University of Posts and Telecommunications,Beijing 100083,China)

【机构】 北京邮电大学模式识别实验室

【摘要】 在使用计算机处理中文信息时,对词语的自动化发现技术有迫切的需求。因为在互联网时代,词语集合的更新换代非常之快,词语以非常快的节奏产生和消亡,这直接影响着对中文信息自动化处理的准确度和可靠性。为了解决这个难题,本文提出一种基于词激活力模型的中文词语发现方法。该方法将海量汉语语料建模成为有序的汉字序列,建立词激活力模型,分析字与字之间的联系程度,从而对任意两个汉字是否构成词语进行估计。在大规模语料集上的数据实验表明,该方法能够有效地对预料中的潜在词语进行自动化发现,达到了预期目标。

【Abstract】 When doing Chinese information processing with computers,there is a strong need for automatic word detection.It’s because in the Internet age,new words come up and old words disappear very fast.This affects the precision and reliability of information processing.In this paper,a Word Activation Force(or WAF) based word detection method is risen,to solve the problem above.In this method,corpus is treated as a Chinese character sequence.An WAF model is then built on the corpus.After that,relationship between characters is analyzed by the model,to estimate whether two characters can form a word.Experiments on large scale corpus show that,this method can effectively detect Chinese words in corpus,research target is achieved.

  • 【文献出处】 软件 ,Software , 编辑部邮箱 ,2012年12期
  • 【分类号】TP391.1
  • 【被引频次】5
  • 【下载频次】41
节点文献中: