节点文献
面向变异短文本的快速聚类算法
Abnormal Short Texts Fast Clustering Algorithm
【Author】 Huang Yongguang,Liu Ting,Che Wanxiang,Hu Xiaoguang Information Retrieval Lab. Harbin Institute of Technology, Harbin 150001
【机构】 哈尔滨工业大学信息检索实验室;
【摘要】 本文研究了变异短文本的聚类技术,提出了一种快速准确的聚类算法,它在原有的去重算法基础上,针对变异短文本这一特殊情况,采取了特定的特征串抽取方法,并融合了压缩编码的思想,加快了处理速度。实验表明,基于该算法的聚类系统对于大量的变异短文本有着很高的执行效率和准确率。
【Abstract】 This paper discusses the clustering technology about the abnormal short texts and proposes an efficient clustering algorithm based on the duplication information deletion algorithm. It concerns about the features of the abnormal short texts and takes some special methods such as extracting feature code and compressing code to solve this problem. Experiments show that the clustering system based on this algorithm can depose lots of abnormal short texts with high accuracy and high speed.
- 【会议录名称】 全国网络与信息安全技术研讨会’2005论文集(下册)
- 【会议名称】全国网络与信息安全技术研讨会’2005
- 【会议时间】2005-08
- 【会议地点】中国北京
- 【分类号】TP391.1
- 【主办单位】信息产业部互联网应急处理协调办公室