节点文献

基于《知网》的文本聚类研究

Research on Text Clustering Based on Hownet

【作者】 张龙

【导师】 柴欣;

【作者基本信息】 河北工业大学 , 计算机技术, 2012, 硕士

【摘要】 K-Means算法是数据挖掘技术中的一种经典算法,有着形式简单和空间时间复杂度低的优点,在文本挖掘方面也得到极大的应用。论文研究了文本聚类的关键技术和算法,针对文本聚类中如何利用词语的语义信息和位置信息进行了研究,使用改进的文本相似度计算方法对文本集合进行了聚类,并对K-Means算法进行了相应的改进。论文的主要工作是对三种文本相似度计算方法对K-Means算法聚类效果影响的探索。分别使用基于传统向量空间模型的文本相似度计算方法、基于《知网》的文本相似度计算方法和结合位置信息的文本相似度计算方法做为聚类算法的相似度度量实现了K-Means算法,并对聚类效果进行了比较。在定义基于《知网》的文本相似度计算方法时,为了提高算法效率和准确率实现了一种新的向量空间的生成方法,不再使用整个文档集合中所有的词生成一个固定维数的向量空间,而是针对每篇文章生成一个向量,每篇文章生成向量的维数等于该文章包含的词数而不是整个文档集合包含的词数,从而降低数据的高维性和稀疏性,并讨论了这种向量空间和欧式空间的关系;在定义结合位置信息的文本相似度计算方法时,通过使用依存分析的方法对文本中词的位置信息进行统计,提出词语的相似度应当由词语的语义相似度和位置信息相似度共同决定的。并探索使用词语位置信息对两个词语的相似度进行修正的方法,实现两者的结合。在这两个方面对文本相似度计算方法进行改进后实现的K-Means算法拥有较好的聚类效果。

【Abstract】 K-Means algorithm is a classical algorithm of data mining technology, and it has the advantage of brief form and low time and space cost. It is also used widely in text mining. The paper researches on the key technology and algorithm in text clustering and puts forward a new method of calculating the similarity of texts based on hownet and improves the K-Means algorithm.The main work of the paper is to explore the effect of three text similarity calculating methods on K-Means algorithm. Using the classical vector space model based text similarity calculating method, hownet based text similarity calculating method and position information involved text similarity calculating method, the paper completes K-Means algorithm. To define the hownet based text similarity calculating method, the paper put forward a new way of generating vector space. It use the words of one text to generate a vector for the text,thus, the dimension of the vector equals to the number of words in the only text but not the number of words in all the text set. In this method, the high dimension and sparsity is reduced. The paper also talks something about the relation between the space and Euclid space. To define the position information involved text similarity calculating method, The paper also put forward that the similarity of two words should be decided by the words meaning similarity and position similarity. The paper also explore the method that how to correct the similarity of two words.

  • 【分类号】TP391.3
  • 【被引频次】4
  • 【下载频次】155
节点文献中: 

本文链接的文献网络图示:

本文的引文网络