节点文献

基于样本实例的Web信息抽取

Web Information Extraction Based on Samples

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 张绍华徐林昊杨文柱薛文玲李天柱

【Author】 ZHANG Shao hua, XU Lin hao, YANG Wen zhu, XUE Wen ling, LI Tian zhu(College of Mathematics and Computer,Hebei University,Baoding 071002,China)

【机构】 河北大学数学与计算机学院河北大学数学与计算机学院 河北保定071002河北保定071002河北保定071002

【摘要】 主要研究了基于HTML文档的信息抽取 ,提出了一种基于样本实例的Web信息抽取的方法 .用户首先选定样本页面和预先定义模式 (基于O -R模型 ) ,然后对样本页面和其中的样本记录进行标记、学习 ,形成信息抽取规则 ,并存入知识库 ;利用知识库对其他同类页面自动抽取所需的信息 ,存入数据库中 .本方法可用于Web查询 ,也可用于信息集成的包装器 .

【Abstract】 This paper mainly discusses an approach of information extraction from HTML documents and presents a samples-based method of fast information extraction. User first chooses the sample pages,predefined scheme(based on O-R model) and marks sample reords,then the system automatically form extraction rules from user’s marking behaviors on pages. All the rules are stored into knowledge base. The system can automatically extract information from other similar pages using the knowledge in knowledge base and the information extracted is stored into database. The method can be applied to Web query and wrappers for information integration.

【关键词】 HTML模式抽取器信息抽取Web查询
【Key words】 HTMLschemainformation extractionWeb querywrapper
  • 【文献出处】 河北大学学报(自然科学版) ,Journal of Hebei University(Natural Science Edition) , 编辑部邮箱 ,2001年04期
  • 【分类号】TP393
  • 【被引频次】74
  • 【下载频次】336
节点文献中: 

本文链接的文献网络图示:

本文的引文网络