节点文献

基于无指导机器学习的全文词义自动标注方法

Full-words Automatic Word Sense Tagging Based on Unsupervised Learning Algorithm

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 卢志茂刘挺李生

【Author】 LU Zhi-Mao LIU Ting LI Sheng (Computer Science & Technology School, Harbin Engineering University, Harbin 150001) (Computer Science & Technology School, Harbin Institute of Technology, Harbin 150001)

【机构】 哈尔滨工程大学计算机科学与技术学院哈尔滨工业大学计算机学院信息检索研究室哈尔滨工业大学计算机学院信息检索研究室 哈尔滨 150001 哈尔滨工业大学计算机学院信息检索研究室 哈尔滨 150001哈尔滨 150001

【摘要】 为实现汉语全文词义自动标注,本文采用了一种新的基于无指导机器学习策略的词义标注方法.实验中建立了四个词义排歧模型,并对其测试结果进行了比较.其中实验效果最优的词义排歧模型融合了两种无指导的机器学习策略,并借助依存文法分析手段对上下文特征词进行选择.最终确定的词义标注方法可以使用大规模语料对模型进行训练,较好的解决了数据稀疏问题,并且该方法具有标注正确率高、扩展性能好等优点,适合大规模文本的词义标注工作.

【Abstract】 For the purpose of implementing automatic Chinese word sense tagging, this paper presents a new method for word sense disambiguation based on unsupervised machine learning strategies. Four models of word sense disambiguation are built and compared. The model with two unsupervised machine learning strategies and selecting contextual features using dependence grammar obtains the best performance. And it can be trained with large-scale corpus to deal with the problem of data sparseness. In addition, it has such characteristics as high accuracy, high speed, easy extension and so on. Thus this technique is competent for word sense tagging on large-scale real-world text.

【基金】 国家自然科学基金重点项目(60435020)国家自然科学基金项目(60575042,60573072)资助~~
  • 【文献出处】 自动化学报 ,Acta Automatica Sinica , 编辑部邮箱 ,2006年02期
  • 【分类号】TP391.1
  • 【被引频次】10
  • 【下载频次】370
节点文献中: 

本文链接的文献网络图示:

本文的引文网络