节点文献

基于数据源依赖性的Deep Web数据融合方法

Algorithm for Deep Web Data Fusion Based on Source Dependence

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 陆姗姗时玉杰赵朋朋崔志明

【Author】 LU Shan-shan;SHI Yu-jie;ZHAO Peng-peng;CUI Zhi-ming;Institute of Intelligent Information Processing and Application,Soochow University;

【机构】 苏州大学智能信息处理及应用研究所

【摘要】 在Deep Web数据挖掘中,不同数据源之间往往会出现数据冲突,如何解决冲突从而获得正确值(这一过程称为数据融合)是数据集成中的一个关键问题.提出一种考虑数据源之间依赖关系的数据融合方法.该方法利用贝叶斯分析确定数据源之间的依赖性,设计出检测依赖性和融合数据的迭代算法;并通过考虑数据源的准确度和属性值之间的相似性等条件扩展模型.使用该方法,对网上爬取的真实数据进行了实验,结果表明它能够显著提高数据融合的准确度,而且在大量数据源存在的情况下具有可扩展性.

【Abstract】 In Deep Web data mining,different sources can often provide conflicting data.It is important that data integration systems can resolve conflicts and obtain correct values,which is called data fusion.We propose an algorithm that considers dependence between sources in data fusion.The algorithm uses Bayesian analysis to decide source dependence and iteratively detects dependence and fuses data.Moreover,we extend our model by considering accuracy of data sources and similarity between values.Our experiments on real data show that our algorithm can notably improve accuracy of data fusion and is scalable when there is a large of data sources.

【基金】 国家自然科学基金项目(60970015,61003054,61170020)资助;江苏省高校自然科学研究项目(10KJB520018)资助;苏州市科技支撑计划项目(SG201257)资助
  • 【文献出处】 小型微型计算机系统 ,Journal of Chinese Computer Systems , 编辑部邮箱 ,2014年02期
  • 【分类号】TP202
  • 【被引频次】4
  • 【下载频次】111
节点文献中: 

本文链接的文献网络图示:

本文的引文网络