节点文献
基于查询接口特征的Deep Web数据源自动分类
Automatic Classification of Deep Web Sources Based on Search Interface Schemas
【Author】 ZHAO Peng-peng, GAO Ling, CUI Zhi-ming (The Institute of Intelligent Information Processing and Application, Suzhou University, Suzhou 215006 China)
【机构】 苏州大学智能信息处理及应用研究所;
【摘要】 搜索引擎可以很好地搜索出大部分可索引页面,然而,Internet上有大量的页面是由后台数据库动态产生的,传统的搜索引擎搜索不出这部分页面,我们称之为Deep Web。其中大部分Deep Web是结构化的,它提供结构化的查询接口和结构化的结果。把这些结构化的Deep Web数据源按所属领域进行组织可以方便用户浏览这些有价值的资源,并且这也是大规模Deep Web集成搜索的一个关键步骤。提出了一种基于查询接口特征的Deep Web 数据源自动分类方法,并通过实验验证该方法是非常有效的。
【Abstract】 Web search engines work well for finding crawlable pages, but not for finding datasets hidden behind Web search forms. On this deep Web, many sources are structured by providing structured query interfaces and results. Organizing such structured sources into a domain hierarchy that users can browse to find these valuable resources and is one of the critical steps toward the large-scale integration of heterogeneous Deep Web sources. We propose a Automatic Classification of Structured Deep Web Sources based on the features available on the search interfaces. Our experimental results indicate that this approach can achieve good results.
【Key words】 Deep Web; Automatic classification; Machine learning; Data integration;
- 【会议录名称】 2006年全国开放式分布与并行计算学术会议论文集(二)
- 【会议名称】2006年全国开放式分布与并行计算学术会议
- 【会议时间】2006-10
- 【会议地点】中国陕西西安
- 【分类号】TP391.3
- 【主办单位】中国计算机学会开放系统专业委员会