中国学术期刊网络出版总库
  关闭
基于词矢量相似度的短文本分类  
   推荐 CAJ下载 PDF下载
【英文篇名】 Short text classification based on word embedding similarity
【下载频次】 ★★★★★
【作者】 马成龙; 姜亚松; 李艳玲; 张艳; 颜永红;
【英文作者】 MA Cheng-long; JIANG Ya-song; LI Yan-ling; ZHANG Yan; YAN Yong-hong; Key Laboratory of Speech Acoustics and Content Understanding; Institute of Acoustics; Chinese Academy of Sciences;
【作者单位】 中国科学院声学研究所;
【文献出处】 山东大学学报(理学版) , Journal of Shandong University(Natural Science), 编辑部邮箱 2014年 12期  
期刊荣誉:中文核心期刊要目总览  ASPT来源刊  CJFD收录刊
【中文关键词】 短文本分类; 词矢量相似度; 集外词;
【英文关键词】 short text classification; word embedding similarity; out of vocabulary;
【摘要】 互联网中出现的短文本内容短小,相互共享的词汇较少,因此在分类过程中容易出现大量的集外词,导致分类性能降低。鉴于此,提出了一种基于词矢量相似度的分类方法,首先利用无监督的方法对无标注数据进行训练得到词矢量,然后通过词矢量之间的相似度对测试集中出现的集外词进行扩展。通过与基线系统的对比表明,该方法的分类正确率均优于基线系统1%~2%,尤其是在训练数据较少的情况下,所提出的方法的正确率相对提高10%以上。
【英文摘要】 As the short length of the Web short text and less shared words,a lot of out of vocabulary( OOV) words would appear,and these words make the task of text classification more difficult. To solve this problem,a newgeneral framework based on word embedding similarity was proposed. First,get the word embedding file with unsupervised learning method based on unlabeled data. Second,extend the OOVs with the similar words in training data through computing the similarities of different word embeddings. The comparis...
【基金】 国家自然科学基金资助项目(11161140319,91120001,61271426); 中国科学院战略性先导科技专项项目(XDA06030100,XDA06030500); 国家国家高技术研究发展计划(863计划)项目(2012AA012503); 中科院重点部署项目(KGZD-EW-103-2)
【更新日期】 2015-01-05
【分类号】 TP391.1
【正文快照】 0引言文本分类的目的是使用事先定义的类别标签对文本或者网络文档进行标记[1],是信息检索领域的一个重要方向。传统的文本分类通常使用机器学习算法,例如K近邻(k-nearest neighbors,K-NN)[2]、朴素贝叶斯(Nave Bayes)、最大熵(maximum entro-py)[3]、支持向量机(support vec

xxx
【读者推荐文章】中国期刊全文数据库 中国博士学位论文全文数据库 中国优秀硕士学位论文全文数据库
【相似文献】
中国期刊全文数据库
中国优秀硕士学位论文全文数据库
中国博士学位论文全文数据库
中国重要会议论文全文数据库
中国重要报纸全文数据库
中国学术期刊网络出版总库
点击下列相关研究机构和相关文献作者,可以直接查到这些机构和作者被《中国知识资源总库》收录的其它文献,使您全面了解该机构和该作者的研究动态和历史。
【文献分类导航】从导航的最底层可以看到与本文研究领域相同的文献,从上层导航可以浏览更多相关领域的文献。

工业技术
  自动化技术、计算机技术
   计算技术、计算机技术
    计算机的应用
     信息处理(信息加工)
      文字信息处理
  
 
  CNKI系列数据库编辑出版及版权所有:中国学术期刊(光盘版)电子杂志社
中国知网技术服务及网站系统软件版权所有:清华同方知网(北京)技术有限公司
其它数据库版权所有:各数据库编辑出版单位(见各库版权信息)
京ICP证040431号    互联网出版许可证 新出网证(京)字008号