节点文献
基于Web日志的数据挖掘的研究
The Research of Data Mining Based on Web Log
【作者】 张文升;
【导师】 刘万军;
【作者基本信息】 辽宁工程技术大学 , 计算机应用技术, 2005, 硕士
【摘要】 本篇论文主要从以下四个方面对Web日志挖掘进行了系统的分析和研究。第一是对数据挖掘、Web数据挖掘和Web日志挖掘进行了概述,阐述了本篇论文的研究背景及Web日志挖掘研究现状; 第二是研究了Web日志挖掘中的关键步骤——数据准备,详细地分析了预处理阶段的各项任务; 第三是认真研究分析了模式发现阶段的基于聚类的数据挖掘的基本原理和一般方法,并介绍了模糊聚类理论。第四是提出了一个以用户离散化浏览时间为度量、以图论法取得模糊相似矩阵的传递闭包的Web用户浏览模式模糊聚类算法。针对传统的聚类方法属于硬划分的方法,即把每个待辨识的对象严格地划归到某个类中,具有非此即彼的性质,本文提出了用模糊聚类算法对Web事务进行聚类。在聚类的相似性度量上,不再单纯地以访问次数或浏览时间来度量,而是采用用户浏览离散化时间为度量。并将模糊相似度和图论相结合提出了以图论法取得模糊相似矩阵传递闭包的方法。经实验证明,该算法比传统算法准确性高,运行时间少,扩展性好。
【Abstract】 This thesis includes four parts in which the technologies of Web Log Mining are systematically researched. In the first part we summarize the techniques of Web Log Mining, and present the significance of the research on Web Log Mining, the status of research and the problem which Web Log Mining faces with. In the second part we research on data preparation which is the key process of Web Log Mining and analyze each task of data preparation in detail. In the third part analyze principles and general methods of clustering based Data Mining in pattern discovery phase, and introduce the theory of fuzzy clustering. In the fourth part, present a fuzzy clustering algorithm of Web users browsing pattern. The algorithm bases on user viewing time discretization that avoids only taking user browsing times or user browsing time into account. The algorithm adopts graphic theory to get fuzzy equivalence matrix from fuzzy similar matrix. The algorithm is proved to have better accuracy, fewer CPU time and better scalability than traditional methods by the experiments.
【Key words】 Data Mining; Web Log Mining; Web Session; fuzzy clustering; time discretization;
- 【网络出版投稿人】 辽宁工程技术大学 【网络出版年期】2006年 06期
- 【分类号】TP393.092;TP311.13
- 【被引频次】6
- 【下载频次】249