节点文献

FSC——利用频繁项集挖掘估算视图大小

FSC—Using Frequent Set Mining for View Size Estimation

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 邹远娅周皓峰王晨汪卫施伯乐

【Author】 ZOU Yuan-Ya,ZHOU Hao-Feng,WANG Chen,WANG Wei,and SHI Bai-Le (Department of Computing and Information Technology,Fudan University,Shanghai 200433)

【机构】 复旦大学计算机与信息技术系

【摘要】 OLAP系统中经常要在大规模数据库上进行复杂查询.为了提高查询响应速度,往往要事先物化一些视图.在考虑选择物化哪些视图时,必须首先解决视图大小的估算问题.目前,对于视图大小的估算,主要有两种方法:一种是利用概率模型和数学估算的方法;另一种是假定数据符合某种特定的分布模型.通过采样确定模型的参数,并将其推广到整个数据集进行估算.提出了一种视图估算的新方法FSC,引入了频繁项集挖掘的思想,在扫描两次数据库后可以得到cube中所有视图大小的估算值.实验证明,与同类算法相比,FSC的精度有较大地提高,特别是针对倾斜度较大的数据集.

【Abstract】 On-line analytical processing(OLAP) usually involves complex queries on very large database. Pre-aggregation is frequently used to speed up the query response time.Storage estimation should be done in advance for selective pre-aggregation.The solutions of the problem boil down to two categories:one is based on probabilistic counting and mathematical approximation.The other one based on a priori distribution model is to extrapolate the estimated parameters of distribution on sampling subset to the whole dataset.A novel approach named FSC(frequent sets counting) is presented for view size estimation based on the frequent sets mining and can derive estimation of all views in a cube by two scans of database.The results indicate that the proposed scheme approximates more accurately than other schemes,especially for high skewed dataset.

【基金】 国家自然科学基金重点项目(69933010,60303008);国家“八六三”高技术研究发展计划基金项目(2002AA4Z3430,2002AA231041)
  • 【会议录名称】 第二十一届中国数据库学术会议论文集(研究报告篇)
  • 【会议名称】第二十一届中国数据库学术会议
  • 【会议时间】2004-10-14
  • 【会议地点】中国福建厦门
  • 【分类号】TP311.13
  • 【主办单位】中国计算机学会数据库专业委员会
节点文献中: 

本文链接的文献网络图示:

本文的引文网络