节点文献
基于数据仓库的聚类数据挖掘工具的研究
【作者】 李戈;
【导师】 邵峰晶;
【作者基本信息】 青岛大学 , 计算机软件与理论, 2002, 硕士
【摘要】 数据挖掘是近年来发展快速的信息处理新技术,如何有效地从大量数据中提取出隐藏在其中的有用信息,是该领域的研究核心。聚类分析在数据挖掘研究中占有重要的位置。所谓聚类,是将一个数据单位的集合(数据源)分割成几个称为类或类别的子集,每个类内的对象之间是相似的,但不同类的对象间区别相对较大。聚类分析是根据事物本身的特性研究对被聚类对象进行类别划分的方法。聚类分析依据的原则是使同一类中的对象具有尽可能大的相似性,而不同类中的对象具有尽可能大的差异性;而聚类分析通常是在没有先验知识支持的前提下进行的。聚类分析要解决的就是如何在没有先验知识的前提下,实现满足这种要求的类的聚合。 正是由于聚类分析的重要性和特殊性,近年来在该领域的研究取得了长足的发展,涌现出了许多聚类分析的方法,如分割聚类方法(PartitioningMethod)、层次聚类方法(Hierarchical Method)、基于密度(Density-Based)的聚类方法、基于网格(Grid-Based)的聚类方法、基于模型(Model-Based)的聚类方法等等。这些方法所涉及的领域几乎遍及人工智能科学的方方面面,而且在特定的领域中、特定的情形下取得了良好的效果。但是当处理数据为大数据量、具有复杂数据类型的数据集合时,则仍存在若干尚未解决的问题,有关具体细节将在本论文中详细论述。 本课题在课题组前期完成的数据仓库平台的基础上,主要就基于大规模数据仓库的聚类数据挖掘方法进行了研究。主要工作包括: 1.聚类分析结果的精确性问题。聚类结果的精确性是指聚类分析对原始数据集进行划分后,各子类别间边界的明确性及各被聚类对象所属类别的准确性。现有聚类算法易于对被聚类对象空间分布情况比较规则的数据集合进行聚类,而对于具有复杂分布特征的集合却难以进行精确的聚类分析;现有算法大都仅对小型数据集合能够进行较为精确的聚类,且结果并不理想。所以,本文就如何提高基于划分和基于模型的聚类算法的聚类准确性进行了研究,并对几种现有聚类算法提出了改进方案。 2.时间复杂度和空间复杂度过大的问题。聚类分析所处理的往往是数据库或数据仓库中的大数据量数据集合,而且描述数据集合性质的属性繁多,属性 值之间的关系复杂,山此带来了聚集处理较高的时间复杂性和空间复杂性。本 文在深入分析的基础上,就降低或控制聚类分析的时间复杂度进行了尝试。 3.对现有的各种聚类分析算法的对比性研究。随着数据挖掘技术的迅速发 展及其应用的不断拓展,出现了若干聚类分析算法。本文对现有较为典型且具 有代表性的算法进行了对比性的实验研究,对各种算法的优缺点进行了分析评 价。 4.基于划分的聚类方法的改进。基于划分的方法使聚类分析中较为主要的 方法之一,但是山于它对于先验知识的依赖较强,尤其是需要预先指定聚类分 析的类别数目,给该方法的应用带来了障碍。本文提出了对基于划分的方法的 改进方法。 5.基于神经元网络的聚类分析问题的研究。Kohonen网络是基于模型的数 聚挖掘方法的典型代表,它具有自组织、自适应的忧点,适合于在没有先验知 识的情况下发现数据集合的整体特征,完成聚类分析。但由于Kohonen网络存 在着聚类结果划分不明确,且易出现训练过渡的问题,限制了它的应用。本文 就提高聚类结果表达的明确性,如何解决Kohonen网络训练过度的问题进行了 分析、论证,提出了提高Kohonen网络划分明确性以及解决训练过渡问题的改 进方案。 6.基干数据仓库的数据挖掘的解决方案。由于数据集合规模的不断扩大, 数据库应用对于数据规整性、一致性要求的不断提高,数据仓库的出现为解决 这些问题提供了条件。本文就如何在数据仓库系统的基础上构建分布式数据挖 掘系统,进行了深入的分析和阐述,并且给出了解诀方案。 由于本课题的主要研究工作是研制完成基于大规模数据仓库的聚类数据挖 掘工具,本文从现有的数据挖掘理论、数据仓库系统的分析出发,逐步深入的 对以上内容展开论述,对研究工作过程中的心得体会及经验教D!【进行了总结, 并在此基础上给出了若干结论,在论文的最后对今后的工作进行了分析并提出 了下一步的研究课题。
【Abstract】 Clustering analysis is an important part of the whole Data Mining system. Clustering is the process of grouping the data into classes or clusters so that objects within the same cluster have high similarity in comparison to one another, but are very dissimilar to objects in other clusters. Dissimilarities are assessed base on the attribute values describing the objects. Clustering has its roots in many areas, including data mining, statistics, biology, and machine learning.Clustering processes are always carried out in the condition with no pre-known knowledge, so the most research task is to solve that how to get the clustering result in this premise.As the development of Data Mining, a number of clustering algorithms has been founded, In general, major clustering methods can be classified into the following categories: Partitioning methods; Hierarchical methods; Density-based methods; Grid-based methods; Model-based methods; besides these, some clustering algorithms integrate the ideas of several clustering methods. Although all these methods have got great achievement in different field, but these all meet difficulties when processing Huge quantity data base. So it is a main aim to analysis the reason to this problem, and detail resolvent has been given. The following problems will be discussed:l.The accuracy of the clustering algorithm: The accuracy of the clustering methods refers to the partitioning accuracy and destination of the original data set. It is easy for present clustering algorithm to process the data set with regular partitioning characters, but difficult to deal with the unregular data set. At the same time, it is difficult to deal with huge quantity data set for present algorithm. So it will be discussed in this thesis.2.Compare of the present clustering algorithms. It is sometimes difficult to classify a given algorithm as uniquely belonging to only one clustering method category, so detailed compare and analysis have been given in this thesis.3.The large complexity of time and space consuming. Because of the huge quantity and high complexity of the original data set, it is important for a practicalalgorithm to reduce the complexity in time consuming, this problem will be discussed in this thesis.4.Amelioration of the Partition-based Method. Partition-based method is a practical cluster way to cluster data set, but the efficiency of this method is strongly depend on the pre-known knowledge, especially it is necessary for this method to give the clusters’ number in advance. A new method will be given in this thesis about how to deal with this problem.5.The Over Training Problem of Neural Network. Kohonen network is the important one of the Model-based algorithms. Self-mapping and self-organizing are it’s main feature, these make it easy to find out the profile of original data set in the condition with no pre-known knowledge. On the other hand, it’s disadvantage limited it application field, for it has so high a compute complexity, and large quantity of original data set always over trains the net work. In this paper we discussed how to modify it’s structure and make it run faster.6.Resolvment of the Data Mining system based on Data Warehouse system. It is necessary to storage data in high regular and high consistency, Data Warehouse provide all the conditions to realize this, so in this paper a resolvent about how to build distributed data mining system on data warehouse will be discussed.
【Key words】 Data Mining; Data Warehouse; Clustering Algorithm; Neural Network;
- 【网络出版投稿人】 青岛大学 【网络出版年期】2002年 02期
- 【分类号】TP311.13
- 【被引频次】7
- 【下载频次】451