节点文献

基于EM算法的文本聚类优化研究

Optimization of Text Clustering Based on EM Algorithm

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 冯中慧鲍军鹏沈钧毅

【Author】 FENG Zhong-hui,BAO Jun-peng,SHEN Jun-yi (School of Electronics and Information Engineering,Xi’an Jiaotong University,Xi’an710049,China)

【机构】 西安交通大学电子与信息工程学院西安交通大学电子与信息工程学院 陕西西安710049陕西西安710049

【摘要】 针对现有的文本聚类算法难以取得满意结果的问题,以EM算法为基础,提出能分别描述相似、不相似聚类对的相似性分布以及重要、不重要文档的重要性分布的文本聚类优化模型(text c lustering optim iza-tion model,TCOM).基于该模型,设计一种通过合并不同的文本聚类结果以获取最优性能的方法.实验结果表明,利用该方法同时改善了聚类精度和召回率,其性能优于单独使用现有的硬、软聚类算法.*

【Abstract】 A model named TCOM(text clustering optimization model) based on expectation-maximization(EM) algorithm is proposed to solve the problem that the existing text clustering algorithms can not achieve satisfac-(tory results.) This model describes the similarity distribution of the similar and non-similar pair of clusters,and pre-(sents) the importance distribution of the important and unimportant documents.The method based on TCOM optimizes the performance by merging different text clustered results.Experimental results show that clustering precision and recall are both improved,and its performance is higher than that of either hard clustering method or soft clustering method.

【基金】 国家自然科学基金资助项目(60173058,60673087)
  • 【文献出处】 信息与控制 ,Information and Control , 编辑部邮箱 ,2006年05期
  • 【分类号】TP18
  • 【被引频次】9
  • 【下载频次】503
节点文献中: 

本文链接的文献网络图示:

本文的引文网络