中国学术期刊网络出版总库
  关闭
基于排序学习的文本概念标注方法研究  
   推荐 CAJ下载 PDF下载
【英文篇名】 Learning to Rank Concept Annotation for Text
【下载频次】 ★★★★★
【作者】 涂新辉; 何婷婷; 李芳; 王建文;
【英文作者】 TU Xinhui1; 2; HE Tingting1; LI Fang1; WANG Jianwen1; 2 1.School of Computer Science; Huazhong Normal University; Wuhan 430079; 2.Network Media Branch; National Language Resources Monitoring and Research Center;
【作者单位】 华中师范大学计算机学院; 国家语言资源监测与研究中心网络媒体语言分中心;
【文献出处】 北京大学学报(自然科学版) , Acta Scientiarum Naturalium Universitatis Pekinensis, 编辑部邮箱 2013年 01期  
期刊荣誉:中文核心期刊要目总览  ASPT来源刊  中国期刊方阵  CJFD收录刊
【中文关键词】 概念标注; 排序学习; 维基百科; 显示语义分析;
【英文关键词】 concept annotation; learning to ranking; Wikipedia; explicit semantic analysis;
【摘要】 提出一种基于排序学习的方法 CRM(concept ranking model),来实现文档的维基百科概念自动标注。首先人工对一定规模的文档进行概念标注,建立训练集合,然后利用排序学习算法在多项特征上得到对概念排序的模型,利用这个概念的排序模型对任意文档进行概念标注。实验表明,相对于传统的文档概念标注方法,此方法在各类指标上都有相当大的提高,标注结果更加接近人类的概念标注。
【英文摘要】 This paper proposed an automatic text annotation method(CRM,concept ranking model) based on learning to ranking model.Firstly the authors built a training set of concept annotation manualy,and then used the Ranking SVM algorithm to generate concept ranking model,finally the concept ranking model was used to generate concept annotation for any texts.Experiments show that proposed method has a significant improvement in various indicators compared to traditional annotation methods,and concept annotation resul...
【基金】 国家自然科学基金(90920005,61003192)资助
【更新日期】 2013-02-26
【分类号】 TP391.1
【正文快照】 人类理解自然语言的过程是一个语义概念的联想和关联的过程,这种功能是由人类大脑中几百亿个神经元构成的复杂生理组织所提供的。建立基于概念的文本表征模型是实现基于语义的文本内容处理的一个途径[1]。能够表征文本中所蕴涵的各种复杂主题所使用概念集合应该满足以下条件:1)

xxx
【读者推荐文章】中国期刊全文数据库 中国博士学位论文全文数据库 中国优秀硕士学位论文全文数据库
【相似文献】
中国期刊全文数据库
中国优秀硕士学位论文全文数据库
中国博士学位论文全文数据库
中国重要会议论文全文数据库
中国重要报纸全文数据库
中国学术期刊网络出版总库
点击下列相关研究机构和相关文献作者,可以直接查到这些机构和作者被《中国知识资源总库》收录的其它文献,使您全面了解该机构和该作者的研究动态和历史。
【文献分类导航】从导航的最底层可以看到与本文研究领域相同的文献,从上层导航可以浏览更多相关领域的文献。

工业技术
  自动化技术、计算机技术
   计算技术、计算机技术
    计算机的应用
     信息处理(信息加工)
      文字信息处理
  
 
  CNKI系列数据库编辑出版及版权所有:中国学术期刊(光盘版)电子杂志社
中国知网技术服务及网站系统软件版权所有:清华同方知网(北京)技术有限公司
其它数据库版权所有:各数据库编辑出版单位(见各库版权信息)
京ICP证040431号    互联网出版许可证 新出网证(京)字008号