中国重要会议论文全文数据库
  关闭
基于重复串的短文本聚类研究  
   CAJ下载 PDF下载
【会议录名称】 全国第八届计算语言学联合学术会议(JSCL-2005)论文集 , 2005 年
【作者】 胡吉祥; 许洪波; 刘悦; 王斌; 程学旗;
【英文论文作者】 Ji-Xiang Hu; Hong-Bo Xu; Yue Liu; Bin Wang; Xue-Qi Cheng (Institute of Computing Technology; Chinese Academy of Science; Beijing 100080; China) (Graduate School of the Chinese Academy of Science; Beijing 100039; China);
【作者单位】 中国科学院计算技术研究所;
【会议名称】 全国第八届计算语言学联合学术会议(JSCL-2005)
【会议地点】 中国南京
【主办单位】 南京师范大学、清华大学智能技术与系统国家重点实验室
【学会名称】 中国中文信息学会
【主编】 孙茂松、陈群秀
【关键词】 短文本; 文档聚类; 特征提取; 重复串;
【英文论文关键词】 Short-text; Document Clustering; Feature Extraction; Repeats;
【论文摘要】 随着信息技术迅速发展和通讯手段的多样化,人们之间相互交流所产生的邮件、BBS论坛、即时消息等短文本在网络信息流中的地位日益突出。对于此类信息的组织和分析挖掘在话题检测与跟踪,在线社区发现以及信息安全等方面有着十分重要的意义。文本聚类分析是组织文本的一种有效方法,在传统研究中被广泛应用于未知话题的自动发现并取得了不错的效果。本文分析了短文本这种特定语料的内在特性,提出一种新的基于重复串的特征提取算法,并将其应用于短文本的聚类。实验结果证明了该方法可行并且比传统方法更有效。
【英文论文摘要】 With the rapid development of information technology and diversification of communication means, short-text arising from human interaction, such as email, BBS, and instant message, are increasingly predominant in network information streams. Short-text organization and mining are of great significance in topic detecting and tracking, on-line community discovering and information security, etc. Document clustering is an efficient method to organize documents, which has been widely used in unknown topic auto-...
【基金】 本论文得到国家973课题资助,课题编号:2004CB318109。
【更新日期】 2006-03-16

xxx
【读者推荐文章】中国期刊全文数据库 中国重要报纸全文数据库 中国博士学位论文全文数据库 中国优秀硕士学位论文全文数据库 中国重要会议论文全文数据库
【相似文献】
中国期刊全文数据库
中国优秀硕士学位论文全文数据库
中国博士学位论文全文数据库
中国重要会议论文全文数据库
中国重要报纸全文数据库
中国学术期刊网络出版总库
点击下列相关研究机构和相关文献作者,可以直接查到这些机构和作者被《中国知识资源总库》收录的其它文献,使您全面了解该机构和该作者的研究动态和历史。
【文献分类导航】从导航的最底层可以看到与本文研究领域相同的文献,从上层导航可以浏览更多相关领域的文献。

工业技术
  自动化技术、计算机技术
   计算技术、计算机技术
    计算机的应用
     信息处理(信息加工)
      文字信息处理
  
 
  CNKI系列数据库编辑出版及版权所有:中国学术期刊(光盘版)电子杂志社
中国知网技术服务及网站系统软件版权所有:清华同方知网(北京)技术有限公司
其它数据库版权所有:各数据库编辑出版单位(见各库版权信息)
京ICP证040431号    互联网出版许可证 新出网证(京)字008号