节点文献

一种基于短文本的独立语义特征抽取算法

An Independent Semantic Feature Extraction Algorithm Based on Short Text

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 胡佳妮郭军徐蔚然

【Author】 Hu jiani Guo jun Xu weiran (Beijing University of Posts and Telecommunications,Beijing,100876)

【机构】 北京邮电大学信息工程学院

【摘要】 短文本广泛存在于人们的生产和生活中,有很大的研究价值,其主要特点就是短小性和多样性。本文提出了一种基于短文本的独立语义特征抽取算法,旨在降低文本向量的稀疏性并提高语义表示性。本文提出的算法首先采用潜在语义分析降低文本的维数并去除噪声,然后运用独立成份分析方法在潜在语义特征中提取出最能表达语义且相互统计独立的特征。实验证明本文提出的算法优于潜在语义索引算法。

【Abstract】 Short texts exist broad in our lives and are meaningful for study.The feature of short text is short in length and diversiforrn in expression.This paper proposes an independent semantic feature extraction algorithm, aiming at reducing the sparseness of short text and enhancing the meaningful expression.The algorithm first makes use of latent semantic indexing to reduce the dimension and wipe off noise, and then it introduces independent component analysis to extract statistic independent and semantic features.Experimental results prove the feasibility of the algorithm and demonstrate it is superior to latent semantic indexing.

【关键词】 特征语义独立成份
【Key words】 featuresemanticindependent component
【基金】 国家自然科学基金(No.60475007,60675001)
  • 【会议录名称】 全国网络与信息安全技术研讨会论文集(上册)
  • 【会议名称】全国网络与信息安全技术研讨会
  • 【会议时间】2007-07
  • 【会议地点】中国山东青岛
  • 【分类号】TP391.1
  • 【主办单位】信息产业部互联网应急处理协调办公室
节点文献中: 

本文链接的文献网络图示:

本文的引文网络