节点文献

基于查询接口特征的Deep Web数据源自动分类

Automatic Classification of Deep Web Sources Based on Search Interface Schemas

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 赵朋朋高岭崔志明

【Author】 ZHAO Peng-peng, GAO Ling, CUI Zhi-ming (The Institute of Intelligent Information Processing and Application, Suzhou University, Suzhou 215006 China)

【机构】 苏州大学智能信息处理及应用研究所

【摘要】 搜索引擎可以很好地搜索出大部分可索引页面,然而,Internet上有大量的页面是由后台数据库动态产生的,传统的搜索引擎搜索不出这部分页面,我们称之为Deep Web。其中大部分Deep Web是结构化的,它提供结构化的查询接口和结构化的结果。把这些结构化的Deep Web数据源按所属领域进行组织可以方便用户浏览这些有价值的资源,并且这也是大规模Deep Web集成搜索的一个关键步骤。提出了一种基于查询接口特征的Deep Web 数据源自动分类方法,并通过实验验证该方法是非常有效的。

【Abstract】 Web search engines work well for finding crawlable pages, but not for finding datasets hidden behind Web search forms. On this deep Web, many sources are structured by providing structured query interfaces and results. Organizing such structured sources into a domain hierarchy that users can browse to find these valuable resources and is one of the critical steps toward the large-scale integration of heterogeneous Deep Web sources. We propose a Automatic Classification of Structured Deep Web Sources based on the features available on the search interfaces. Our experimental results indicate that this approach can achieve good results.

【基金】 2005年度教育部科研重点项目(205059);教育部“高校博士学科点科研基金项目”(20040285016);江苏省高技术研究计划项目(BG2005019)
  • 【会议录名称】 2006年全国开放式分布与并行计算学术会议论文集(二)
  • 【会议名称】2006年全国开放式分布与并行计算学术会议
  • 【会议时间】2006-10
  • 【会议地点】中国陕西西安
  • 【分类号】TP391.3
  • 【主办单位】中国计算机学会开放系统专业委员会
节点文献中: 

本文链接的文献网络图示:

本文的引文网络