节点文献
SDPHC——基于密度的分割和分层的自校聚类算法
SDPHC:Self-Tuning Density-Based Partitioning and Hierarchical Clustering
【作者】 程尊平; 周鼎; 王晨; 周皓峰; 汪卫; 施伯乐;
【Author】 CHENG Zun-Ping,ZHOU Ding,WANG Chen,ZHOU Hao-Feng,WANG Wei,and SHI Bai-Le (Department of Computing and Information Technology,Fudan University,Shanghai 200433)
【机构】 复旦大学计算机与信息技术系;
【摘要】 聚类是数据挖掘中的一项重要技术,挖掘出用户感兴趣的结果是聚类的一个主要任务.然而,用户根据需要指定聚类算法的参数在实际中遇到了很大的困难,这主要是由于现有的算法往往需要设置的参数过多所致.SDPHC提出了一个新颖的基于密度的分割和分层聚类算法,它通过减少参数,以及采用了参数自校技术,使得在聚类中实现人工反馈机制变得比较容易.同时,引进的密度权重概念也可以帮助用户理解结果聚类的密度分布.实验结果通过模拟数据和实际数据表明此方法是比较有效的.
【Abstract】 Clustering is one of the primary techniques in data mining,in which to find interested results for the user is a major task.However,to dynamically specify the parameters for clustering algorithms presents an obstacle for users.A novel density-based partitioning and hierarchical algorithm is introduced,which makes it easy to employ synthetic feedback mechanism in clustering.Additionally,by investigating into the relation between parameters and the clustering result,a self-tuning technique for the setting of parameters is proposed.Meanwhile,the density distribution within a cluster can be expressed in the result for the user to specify the cluster’ s feature.The algorithm is evaluated in both theory and practice.It outperforms many existing algorithms both in both efficiency and quality.
【Key words】 clustering; density-based; partitioning; hierarchical; self-tuning;
- 【会议录名称】 第二十一届中国数据库学术会议论文集(研究报告篇)
- 【会议名称】第二十一届中国数据库学术会议
- 【会议时间】2004-10-14
- 【会议地点】中国福建厦门
- 【分类号】TP311.13
- 【主办单位】中国计算机学会数据库专业委员会